Skip to content

Criar Monitoramento e Alertas de Falhas do Scraper #73

@nitaibezerra

Description

@nitaibezerra

User Story

Como operador da plataforma DGB,
Quero um sistema de monitoramento e alertas para falhas de raspagem por órgão,
Para que eu saiba imediatamente quando um órgão parar de ser raspado e possa agir antes que afete o portal.

Contexto

Na reunião de planejamento de 10/02/2026, a equipe identificou que alguns órgãos estão falhando silenciosamente na raspagem (URLs quebradas, HTML alterado, timeouts). César e Nitai enfatizaram a necessidade de observabilidade específica do scraper para detectar quando um órgão para de ser raspado.

Hoje não há alertas automáticos — as falhas só são detectadas manualmente. Com o lançamento do portal se aproximando (deadline abril-maio 2026), é crítico garantir completude de raspagem de todos os órgãos mapeados.

Diferente de data-platform#44 (monitoramento geral), esta issue foca especificamente em:

  • Detectar falhas de raspagem por órgão
  • Alertar quando a contagem de notícias cai abaixo do esperado
  • Identificar erros recorrentes (403, 404, timeout, HTML alterado)

Origem: Reunião de planejamento DGB Dev Daily — 10/02/2026

Critérios de Aceite

  • Logs estruturados de raspagem com nível de erro por órgão
  • Alerta quando um órgão falha em N execuções consecutivas
  • Dashboard ou relatório periódico mostrando status de raspagem por órgão
  • Alerta quando nenhuma notícia nova é raspada para um órgão ativo em X horas
  • Classificação dos erros (URL quebrada, timeout, HTML alterado, bloqueio)

Dependências

  • Relacionada: data-platform#58 (Corrigir URLs Quebradas de Agências)
  • Relacionada: data-platform#44 (Criar Data-platform Monitoring)
  • Relacionada: data-platform#57 (Migrar Scraper para Airflow com DAG por Órgão)

Metadata

Metadata

Labels

size:MMédio (~1-2 dias)

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions