Skip to content

Criar Serviço de Verificação de Integridade de Notícias #68

@nitaibezerra

Description

@nitaibezerra

User Story

Como operador do sistema,
Quero um serviço que verifique continuamente se as notícias raspadas ainda são válidas,
Para que o portal não exiba notícias com links quebrados, imagens indisponíveis ou conteúdo desatualizado.

Contexto

Serviço independente que roda continuamente verificando integridade. Duas verificações principais: (1) validade de imagens (HTTP HEAD), (2) mudanças de conteúdo. Usar priorização por idade da notícia.

Critérios de Aceite

  • Verificação de imagens: HTTP HEAD nas URLs, checar resposta 200
  • Verificação de conteúdo: detectar quando texto foi modificado/removido na fonte
  • Uso de headers HTTP (cache, hash, etag) para detecção leve antes de re-raspar
  • Aproveitamento dos campos published/updated dos metadados gov.br (sugestão de Cesar)
  • Algoritmo de priorização: notícias recentes (<3h) verificadas a cada ~10 min, mais antigas menos frequentemente, >3-5 meses raramente
  • Marcação de notícias com problemas para tratamento
  • Logs e métricas de integridade

Notas da Reunião (10/02)

  • Nitai indicou que idealmente deve estar pronto antes do lançamento
  • Cesar sugeriu usar campos published/updated dos metadados

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or requestsize:XLExtra grande (~1-2 semanas)

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions