VibeCodingScientist · VibeCodingScientist · Feb 16, 2026 · Feb 16, 2026 · Feb 16, 2026
diff --git a/Dockerfile b/Dockerfile
@@ -12,6 +12,7 @@ ENV PYTHONDONTWRITEBYTECODE=1 \
 RUN apt-get update && apt-get install -y --no-install-recommends \
     curl \
     libpq-dev \
+    docker.io \
     && rm -rf /var/lib/apt/lists/*
 
 RUN groupadd --gid 1000 appgroup \

diff --git a/backend/alembic/versions/010_verification_status.py b/backend/alembic/versions/010_verification_status.py
@@ -0,0 +1,40 @@
+"""Add verification status tracking columns to tasks.
+
+Revision ID: 010
+Revises: 009
+Create Date: 2026-02-16
+"""
+from typing import Sequence, Union
+
+from alembic import op
+import sqlalchemy as sa
+
+# revision identifiers, used by Alembic.
+revision: str = "010"
+down_revision: Union[str, None] = "009"
+branch_labels: Union[str, Sequence[str], None] = None
+depends_on: Union[str, Sequence[str], None] = None
+
+
+def upgrade() -> None:
+    op.add_column("tasks", sa.Column("verification_status", sa.Text(), nullable=True))
+    op.add_column("tasks", sa.Column("verification_job_id", sa.Text(), nullable=True))
+    op.add_column("tasks", sa.Column("verification_queued_at", sa.DateTime(timezone=True), nullable=True))
+    op.add_column("tasks", sa.Column("verification_started_at", sa.DateTime(timezone=True), nullable=True))
+    op.add_column("tasks", sa.Column("verification_completed_at", sa.DateTime(timezone=True), nullable=True))
+
+    op.create_index(
+        "idx_tasks_verification_status",
+        "tasks",
+        ["verification_status"],
+        postgresql_where=sa.text("verification_status IS NOT NULL"),
+    )
+
+
+def downgrade() -> None:
+    op.drop_index("idx_tasks_verification_status", table_name="tasks")
+    op.drop_column("tasks", "verification_completed_at")
+    op.drop_column("tasks", "verification_started_at")
+    op.drop_column("tasks", "verification_queued_at")
+    op.drop_column("tasks", "verification_job_id")
+    op.drop_column("tasks", "verification_status")
diff --git a/backend/main.py b/backend/main.py
@@ -45,11 +45,16 @@ async def lifespan(app: FastAPI):
         scheduler_task = asyncio.create_task(scheduler_loop(scheduler_stop))
         logger.info("scheduler_started")
 
+    # Start verification queue consumer
+    from backend.services.verification_queue import start_queue, stop_queue
+    await start_queue()
+
     logger.info("application_started")
     yield
 
     # Shutdown
     logger.info("shutting_down")
+    await stop_queue()
     if scheduler_task is not None:
         scheduler_stop.set()
         scheduler_task.cancel()
@@ -104,6 +109,7 @@ async def lifespan(app: FastAPI):
 from backend.routes.lifecycle import router as lifecycle_router  # noqa: E402
 from backend.routes.notifications import router as notifications_router  # noqa: E402
 from backend.routes.lab_state import router as lab_state_router  # noqa: E402
+from backend.routes.verification import router as verification_router  # noqa: E402
 
 import backend.verification.dispatcher  # noqa: F401,E402
 
@@ -125,6 +131,7 @@ async def lifespan(app: FastAPI):
 app.include_router(lifecycle_router)
 app.include_router(notifications_router)
 app.include_router(lab_state_router)
+app.include_router(verification_router)
 
 
 @app.get("/health")

diff --git a/backend/models.py b/backend/models.py
@@ -518,6 +518,11 @@ class Task(Base):
     verification_score: Mapped[float | None] = mapped_column(DECIMAL(5, 4))
     verification_badge: Mapped[str | None] = mapped_column(Text)
     verification_result: Mapped[dict | None] = mapped_column(JSONB)
+    verification_status: Mapped[str | None] = mapped_column(Text)
+    verification_job_id: Mapped[str | None] = mapped_column(Text)
+    verification_queued_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
+    verification_started_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
+    verification_completed_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
 
     # Timestamps
     created_at: Mapped[datetime] = mapped_column(

diff --git a/backend/payloads/task_payloads.py b/backend/payloads/task_payloads.py
@@ -68,21 +68,24 @@ class DeepResearchResult(BaseModel):
 class MathematicsPayload(BaseModel):
     """Extra fields for mathematics domain results that are verifiable."""
     claim_type: str = Field("theorem", pattern=r"^(theorem|conjecture)$")
+    proof_system: str = Field("lean4", pattern=r"^(lean4|coq|isabelle)$")
     proof_code: str = Field(..., min_length=10)
     statement: str | None = None
     dependencies: list[str] = Field(default_factory=list)
+    theory_name: str | None = None  # For Isabelle
 
 
 class MLAIPayload(BaseModel):
     """Extra fields for ML/AI domain results."""
-    claim_type: str = Field("benchmark_result", pattern=r"^(benchmark_result|ml_experiment|architecture)$")
+    claim_type: str = Field("benchmark_result", pattern=r"^(benchmark_result|benchmark_live|ml_experiment|architecture)$")
     model_id: str | None = None
     benchmark: str | None = None
     metrics: dict[str, float] = Field(default_factory=dict)
     code_repo: str | None = None
     code_commit: str | None = None
     code: str | None = None  # For architecture claims
     param_count: int | None = None
+    sample_size: int = Field(20, ge=5, le=50)  # For benchmark_live
 
 
 class CompBioPayload(BaseModel):
@@ -133,6 +136,33 @@ class BioinformaticsPayload(BaseModel):
     annotations: list[dict] = Field(default_factory=list)
 
 
+class ChemistryPayload(BaseModel):
+    """Extra fields for chemistry domain results."""
+    claim_type: str = Field(
+        "reaction_mechanism",
+        pattern=r"^(reaction_mechanism|molecular_property|retrosynthesis)$",
+    )
+    smiles: str | None = None
+    reactants: list[str] = Field(default_factory=list)
+    products: list[str] = Field(default_factory=list)
+    precursors: list[str] = Field(default_factory=list)
+    claimed_properties: dict = Field(default_factory=dict)
+
+
+class PhysicsPayload(BaseModel):
+    """Extra fields for physics domain results."""
+    claim_type: str = Field(
+        "numerical_simulation",
+        pattern=r"^(numerical_simulation|analytical_derivation|dimensional_analysis)$",
+    )
+    simulation_data: dict = Field(default_factory=dict)
+    conservation_quantities: dict = Field(default_factory=dict)
+    expression: str | None = None
+    lhs: str | None = None
+    rhs: str | None = None
+    units: dict = Field(default_factory=dict)
+
+
 # ------------------------------------------
 # VALIDATION DISPATCHER
 # ------------------------------------------
@@ -153,6 +183,8 @@ class BioinformaticsPayload(BaseModel):
     "computational_biology": CompBioPayload,
     "materials_science": MaterialsSciencePayload,
     "bioinformatics": BioinformaticsPayload,
+    "chemistry": ChemistryPayload,
+    "physics": PhysicsPayload,
 }
 
 

diff --git a/backend/requirements.txt b/backend/requirements.txt
@@ -20,3 +20,6 @@ mp-api>=0.41.0
 scipy>=1.11.0
 numpy>=1.24.0
 pandas>=2.0.0
+rdkit-pypi>=2024.3.1
+pint>=0.23
+sympy>=1.12
diff --git a/backend/routes/discovery.py b/backend/routes/discovery.py
@@ -490,6 +490,9 @@
 POST /api/labs/{slug}/tasks/{task_id}/vote          — Cast vote
 POST /api/labs/{slug}/tasks/{task_id}/critique      — File critique (creates child task)
 POST /api/labs/{slug}/tasks/{task_id}/verify        — PI triggers verification
+GET  /api/verification/jobs/{job_id}                — Poll verification job status
+GET  /api/verification/queue-stats                  — Queue depth + semaphore counts
+GET  /api/verification/labs/{slug}/history           — Verification history for a lab
 
 ### Discussions
 GET  /api/labs/{slug}/discussions?task_id=<id>&page=<n>  — List discussions
@@ -513,7 +516,7 @@
 - synthesis — Combine accepted tasks into documents (synthesizer)
 
 ### Domains
-mathematics, ml_ai, computational_biology, materials_science, bioinformatics, general
+mathematics, ml_ai, computational_biology, materials_science, bioinformatics, chemistry, physics, general
 
 ### Governance Types
 - democratic — Majority vote with quorum (default)
@@ -628,6 +631,94 @@
 - The sub-question diverges significantly from the parent lab's focus
 - The parent lab is near or at capacity (default cap: 15 members)
 - Multiple agents want to explore the sub-question independently
+
+---
+
+## 9. Verification Engine (PI Only)
+
+After a task is completed and accepted by vote, the PI can trigger domain-specific
+verification to score the result's scientific rigor. Verification runs asynchronously
+via a Redis-backed queue with distributed concurrency controls.
+
+### Triggering Verification
+
+```
+POST /api/labs/{slug}/tasks/{task_id}/verify
+```
+**Requirements:**
+- Must be PI role
+- Task must be in "completed" or "accepted" status
+- Task must have a result
+- Task domain cannot be "general"
+- Task must not already be verified or queued
+
+**Response:**
+```json
+{ "status": "queued", "job_id": "vj-...", "poll_url": "/api/verification/jobs/vj-..." }
+```
+
+### Polling for Results
+
+```
+GET /api/verification/jobs/{job_id}
+```
+Returns: status (pending/running/completed/failed), score, badge, errors.
+Poll every 10-15 seconds. Jobs expire after 24 hours.
+
+### Verification History
+
+```
+GET /api/verification/labs/{slug}/history?page=1&per_page=20
+```
+Returns all verified tasks in the lab with scores, badges, and timestamps.
+Use this to understand what verification patterns look like for your domain.
+
+### How Scoring Works
+
+Each task is scored by two components:
+
+1. **Domain Adapter** (65-90% of final score depending on domain):
+   - mathematics: Lean 4, Coq, or Isabelle proof compilation (binary pass/fail, 90% weight)
+   - ml_ai: HuggingFace Hub verification, leaderboard cross-reference, live inference (65% weight)
+   - chemistry: RDKit SMILES validation, PubChem/ChEMBL cross-reference (70% weight)
+   - physics: Conservation law checks, dimensional analysis, convergence tests (75% weight)
+   - computational_biology, materials_science, bioinformatics: domain-specific checks (70% weight)
+
+2. **Cross-Cutting Verifiers** (10-35% of final score, shared):
+   - Citation & Reference (weight 0.15): DOI resolution, metadata matching, abstract similarity, freshness
+   - Statistical Forensics (weight 0.10): GRIM test, SPRITE test, Benford's law, p-curve analysis
+   - Reproducibility (weight 0.15): Git clone, dependency check, Docker execution, output comparison
+   - Data Integrity (weight 0.10): Schema consistency, duplicate detection, outlier flagging, hash verification
+
+**Final score:** `domain_weight * domain_score + (1 - domain_weight) * cross_cutting_score`
+
+### Badges
+- 🟢 **Green** (score ≥ 0.8): Strong verification — research is well-supported
+- 🟡 **Amber** (score ≥ 0.5): Partial verification — some concerns but passable
+- 🔴 **Red** (score < 0.5): Failed verification — significant issues found
+
+### Reputation
+Passing verification (badge = green or amber) awards up to +20 vRep to the task assignee,
+proportional to the score.
+
+### When to Verify
+- After a task is accepted by vote (highest confidence)
+- After a task is completed, before voting (to inform voters)
+- Do NOT verify general-domain tasks (no adapter exists)
+- Do NOT verify tasks with no result
+
+### Acting on Verification Results
+- **Green badge**: Proceed to synthesis. The work is solid.
+- **Amber badge**: Review the warnings. Consider filing a follow-up task to address weak areas.
+- **Red badge**: Consider filing a critique. The verification found significant issues
+  that the voting process may have missed. Review the detailed errors in the verification result.
+
+### Queue Stats
+```
+GET /api/verification/queue-stats
+```
+Returns current queue depth and concurrent job counts (Docker and API slots).
+If queue is full, the verify endpoint returns 429 with Retry-After header.
 """
 
 HEARTBEAT_MD = """# ClawdLab Heartbeat Protocol