Centralize scrape and crawl start payload builders

cursoragent · shrisukhani · cursoragent · commit 558832b29808 · 2026-02-14T12:33:10.000Z
Co-authored-by: Shri Sukhani &lt;shrisukhani@users.noreply.github.com&gt;
diff --git a/CONTRIBUTING.md b/CONTRIBUTING.md
@@ -99,6 +99,7 @@ This runs lint, format checks, compile checks, tests, and package build.
   - `tests/test_extract_payload_helper_usage.py` (extract start-payload helper usage enforcement),
   - `tests/test_guardrail_ast_utils.py` (shared AST guard utility contract),
   - `tests/test_job_pagination_helper_usage.py` (shared scrape/crawl pagination helper usage enforcement),
+  - `tests/test_job_start_payload_helper_usage.py` (shared scrape/crawl start-payload helper usage enforcement),
   - `tests/test_job_wait_helper_boundary.py` (centralization boundary enforcement for wait-for-job helper primitives),
   - `tests/test_job_wait_helper_usage.py` (shared wait-for-job defaults helper usage enforcement),
   - `tests/test_makefile_quality_targets.py` (Makefile quality-gate target enforcement),
diff --git a/hyperbrowser/client/managers/async_manager/crawl.py b/hyperbrowser/client/managers/async_manager/crawl.py
@@ -13,9 +13,9 @@
     initialize_job_paginated_response,
 )
 from ..job_status_utils import is_default_terminal_job_status
+from ..job_start_payload_utils import build_crawl_start_payload
 from ..serialization_utils import (
     serialize_model_dump_or_default,
-    serialize_model_dump_to_dict,
 )
 from ..response_utils import parse_response_model
 from ..start_job_utils import build_started_job_context
@@ -33,10 +33,7 @@ def __init__(self, client):
         self._client = client
 
     async def start(self, params: StartCrawlJobParams) -> StartCrawlJobResponse:
-        payload = serialize_model_dump_to_dict(
-            params,
-            error_message="Failed to serialize crawl start params",
-        )
+        payload = build_crawl_start_payload(params)
         response = await self._client.transport.post(
             self._client._build_url("/crawl"),
             data=payload,
diff --git a/hyperbrowser/client/managers/async_manager/scrape.py b/hyperbrowser/client/managers/async_manager/scrape.py
@@ -14,9 +14,12 @@
 )
 from ..job_status_utils import is_default_terminal_job_status
 from ..job_wait_utils import wait_for_job_result_with_defaults_async
+from ..job_start_payload_utils import (
+    build_batch_scrape_start_payload,
+    build_scrape_start_payload,
+)
 from ..serialization_utils import (
     serialize_model_dump_or_default,
-    serialize_model_dump_to_dict,
 )
 from ..response_utils import parse_response_model
 from ..start_job_utils import build_started_job_context
@@ -40,10 +43,7 @@ def __init__(self, client):
     async def start(
         self, params: StartBatchScrapeJobParams
     ) -> StartBatchScrapeJobResponse:
-        payload = serialize_model_dump_to_dict(
-            params,
-            error_message="Failed to serialize batch scrape start params",
-        )
+        payload = build_batch_scrape_start_payload(params)
         response = await self._client.transport.post(
             self._client._build_url("/scrape/batch"),
             data=payload,
@@ -154,10 +154,7 @@ def __init__(self, client):
         self.batch = BatchScrapeManager(client)
 
     async def start(self, params: StartScrapeJobParams) -> StartScrapeJobResponse:
-        payload = serialize_model_dump_to_dict(
-            params,
-            error_message="Failed to serialize scrape start params",
-        )
+        payload = build_scrape_start_payload(params)
         response = await self._client.transport.post(
             self._client._build_url("/scrape"),
             data=payload,
diff --git a/hyperbrowser/client/managers/job_start_payload_utils.py b/hyperbrowser/client/managers/job_start_payload_utils.py
@@ -0,0 +1,29 @@
+from typing import Any, Dict
+
+from hyperbrowser.models.crawl import StartCrawlJobParams
+from hyperbrowser.models.scrape import StartBatchScrapeJobParams, StartScrapeJobParams
+
+from .serialization_utils import serialize_model_dump_to_dict
+
+
+def build_scrape_start_payload(params: StartScrapeJobParams) -> Dict[str, Any]:
+    return serialize_model_dump_to_dict(
+        params,
+        error_message="Failed to serialize scrape start params",
+    )
+
+
+def build_batch_scrape_start_payload(
+    params: StartBatchScrapeJobParams,
+) -> Dict[str, Any]:
+    return serialize_model_dump_to_dict(
+        params,
+        error_message="Failed to serialize batch scrape start params",
+    )
+
+
+def build_crawl_start_payload(params: StartCrawlJobParams) -> Dict[str, Any]:
+    return serialize_model_dump_to_dict(
+        params,
+        error_message="Failed to serialize crawl start params",
+    )
diff --git a/hyperbrowser/client/managers/sync_manager/crawl.py b/hyperbrowser/client/managers/sync_manager/crawl.py
@@ -13,9 +13,9 @@
     initialize_job_paginated_response,
 )
 from ..job_status_utils import is_default_terminal_job_status
+from ..job_start_payload_utils import build_crawl_start_payload
 from ..serialization_utils import (
     serialize_model_dump_or_default,
-    serialize_model_dump_to_dict,
 )
 from ..response_utils import parse_response_model
 from ..start_job_utils import build_started_job_context
@@ -33,10 +33,7 @@ def __init__(self, client):
         self._client = client
 
     def start(self, params: StartCrawlJobParams) -> StartCrawlJobResponse:
-        payload = serialize_model_dump_to_dict(
-            params,
-            error_message="Failed to serialize crawl start params",
-        )
+        payload = build_crawl_start_payload(params)
         response = self._client.transport.post(
             self._client._build_url("/crawl"),
             data=payload,
diff --git a/hyperbrowser/client/managers/sync_manager/scrape.py b/hyperbrowser/client/managers/sync_manager/scrape.py
@@ -14,9 +14,12 @@
 )
 from ..job_status_utils import is_default_terminal_job_status
 from ..job_wait_utils import wait_for_job_result_with_defaults
+from ..job_start_payload_utils import (
+    build_batch_scrape_start_payload,
+    build_scrape_start_payload,
+)
 from ..serialization_utils import (
     serialize_model_dump_or_default,
-    serialize_model_dump_to_dict,
 )
 from ..response_utils import parse_response_model
 from ..start_job_utils import build_started_job_context
@@ -38,10 +41,7 @@ def __init__(self, client):
         self._client = client
 
     def start(self, params: StartBatchScrapeJobParams) -> StartBatchScrapeJobResponse:
-        payload = serialize_model_dump_to_dict(
-            params,
-            error_message="Failed to serialize batch scrape start params",
-        )
+        payload = build_batch_scrape_start_payload(params)
         response = self._client.transport.post(
             self._client._build_url("/scrape/batch"),
             data=payload,
@@ -152,10 +152,7 @@ def __init__(self, client):
         self.batch = BatchScrapeManager(client)
 
     def start(self, params: StartScrapeJobParams) -> StartScrapeJobResponse:
-        payload = serialize_model_dump_to_dict(
-            params,
-            error_message="Failed to serialize scrape start params",
-        )
+        payload = build_scrape_start_payload(params)
         response = self._client.transport.post(
             self._client._build_url("/scrape"),
             data=payload,
diff --git a/tests/test_architecture_marker_usage.py b/tests/test_architecture_marker_usage.py
@@ -39,6 +39,7 @@
     "tests/test_extract_payload_helper_usage.py",
     "tests/test_examples_naming_convention.py",
     "tests/test_job_pagination_helper_usage.py",
+    "tests/test_job_start_payload_helper_usage.py",
     "tests/test_job_wait_helper_boundary.py",
     "tests/test_job_wait_helper_usage.py",
     "tests/test_example_sync_async_parity.py",
diff --git a/tests/test_core_type_helper_usage.py b/tests/test_core_type_helper_usage.py
@@ -34,6 +34,7 @@
     "hyperbrowser/client/managers/extension_create_utils.py",
     "hyperbrowser/client/managers/extract_payload_utils.py",
     "hyperbrowser/client/managers/job_pagination_utils.py",
+    "hyperbrowser/client/managers/job_start_payload_utils.py",
     "hyperbrowser/client/managers/page_params_utils.py",
     "hyperbrowser/client/managers/job_wait_utils.py",
     "hyperbrowser/client/managers/session_upload_utils.py",
diff --git a/tests/test_job_start_payload_helper_usage.py b/tests/test_job_start_payload_helper_usage.py
@@ -0,0 +1,24 @@
+from pathlib import Path
+
+import pytest
+
+pytestmark = pytest.mark.architecture
+
+
+MODULES = (
+    "hyperbrowser/client/managers/sync_manager/scrape.py",
+    "hyperbrowser/client/managers/async_manager/scrape.py",
+    "hyperbrowser/client/managers/sync_manager/crawl.py",
+    "hyperbrowser/client/managers/async_manager/crawl.py",
+)
+
+
+def test_scrape_and_crawl_managers_use_shared_start_payload_helpers():
+    for module_path in MODULES:
+        module_text = Path(module_path).read_text(encoding="utf-8")
+        if module_path.endswith("scrape.py"):
+            assert "build_batch_scrape_start_payload(" in module_text
+            assert "build_scrape_start_payload(" in module_text
+        else:
+            assert "build_crawl_start_payload(" in module_text
+        assert "serialize_model_dump_to_dict(" not in module_text
diff --git a/tests/test_job_start_payload_utils.py b/tests/test_job_start_payload_utils.py
@@ -0,0 +1,115 @@
+from types import MappingProxyType
+
+import pytest
+
+from hyperbrowser.client.managers.job_start_payload_utils import (
+    build_batch_scrape_start_payload,
+    build_crawl_start_payload,
+    build_scrape_start_payload,
+)
+from hyperbrowser.exceptions import HyperbrowserError
+from hyperbrowser.models.crawl import StartCrawlJobParams
+from hyperbrowser.models.scrape import StartBatchScrapeJobParams, StartScrapeJobParams
+
+
+def test_build_scrape_start_payload_serializes_model() -> None:
+    payload = build_scrape_start_payload(StartScrapeJobParams(url="https://example.com"))
+
+    assert payload == {"url": "https://example.com"}
+
+
+def test_build_batch_scrape_start_payload_serializes_model() -> None:
+    payload = build_batch_scrape_start_payload(
+        StartBatchScrapeJobParams(urls=["https://example.com"])
+    )
+
+    assert payload == {"urls": ["https://example.com"]}
+
+
+def test_build_crawl_start_payload_serializes_model() -> None:
+    payload = build_crawl_start_payload(
+        StartCrawlJobParams(
+            url="https://example.com",
+            max_pages=5,
+        )
+    )
+
+    assert payload["url"] == "https://example.com"
+    assert payload["maxPages"] == 5
+
+
+@pytest.mark.parametrize(
+    ("builder", "params", "error_message"),
+    (
+        (
+            build_scrape_start_payload,
+            StartScrapeJobParams(url="https://example.com"),
+            "Failed to serialize scrape start params",
+        ),
+        (
+            build_batch_scrape_start_payload,
+            StartBatchScrapeJobParams(urls=["https://example.com"]),
+            "Failed to serialize batch scrape start params",
+        ),
+        (
+            build_crawl_start_payload,
+            StartCrawlJobParams(url="https://example.com"),
+            "Failed to serialize crawl start params",
+        ),
+    ),
+)
+def test_job_start_payload_builders_wrap_runtime_serialization_errors(
+    monkeypatch: pytest.MonkeyPatch,
+    builder,
+    params,
+    error_message: str,
+) -> None:
+    def _raise_model_dump_error(*args, **kwargs):
+        _ = args
+        _ = kwargs
+        raise RuntimeError("broken model_dump")
+
+    monkeypatch.setattr(type(params), "model_dump", _raise_model_dump_error)
+
+    with pytest.raises(HyperbrowserError, match=error_message) as exc_info:
+        builder(params)
+
+    assert isinstance(exc_info.value.original_error, RuntimeError)
+
+
+@pytest.mark.parametrize(
+    ("builder", "params", "error_message"),
+    (
+        (
+            build_scrape_start_payload,
+            StartScrapeJobParams(url="https://example.com"),
+            "Failed to serialize scrape start params",
+        ),
+        (
+            build_batch_scrape_start_payload,
+            StartBatchScrapeJobParams(urls=["https://example.com"]),
+            "Failed to serialize batch scrape start params",
+        ),
+        (
+            build_crawl_start_payload,
+            StartCrawlJobParams(url="https://example.com"),
+            "Failed to serialize crawl start params",
+        ),
+    ),
+)
+def test_job_start_payload_builders_reject_non_dict_model_dump_payloads(
+    monkeypatch: pytest.MonkeyPatch,
+    builder,
+    params,
+    error_message: str,
+) -> None:
+    monkeypatch.setattr(
+        type(params),
+        "model_dump",
+        lambda *args, **kwargs: MappingProxyType({"value": 1}),
+    )
+
+    with pytest.raises(HyperbrowserError, match=error_message) as exc_info:
+        builder(params)
+
+    assert exc_info.value.original_error is None