Skip to content

Executar Backfill Completo da Base de Dados #67

@nitaibezerra

Description

@nitaibezerra

User Story

Como engenheiro de dados,
Quero executar um backfill completo re-raspando toda a base de notícias,
Para que preenchamos lacunas na base, atualizemos conteúdos alterados e re-classifiquemos com o novo LLM.

Contexto

A base atual tem "buracos" — alguns órgãos não foram raspados durante períodos de falha do scraper, classificação temática existe apenas para os últimos 1-2 anos, e conteúdos podem ter mudado desde a raspagem original.

Critérios de Aceite

  • Script de backfill criado com controle de rate limiting
  • Execução controlada e lenta (2-3 dias) para não sobrecarregar os sites fonte
  • Lacunas na base identificadas e preenchidas
  • Conteúdos atualizados onde houve mudança
  • Re-classificação temática com o novo classificador LLM
  • Relatório de cobertura antes vs depois

Dependências

  • Depende de: data-platform#56 (classificador LLM pronto)
  • Depende de: DAG de enriquecimento (nova issue)

Notas da Reunião (10/02)

  • Execução lenta e controlada para não impactar sites fonte

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or requestsize:LGrande (~3-5 dias)

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions