fix: desabilitar 6 agências Volto/SPA e corrigir URL CTIR#25
fix: desabilitar 6 agências Volto/SPA e corrigir URL CTIR#25miguellsfilho merged 2 commits intomainfrom
Conversation
Desabilita 6 agências gov.br que usam Volto/SPA (React CMS) e portanto não podem ser coletadas com BeautifulSoup: - ctav, esg, esporte, hfa, memp, reconstrucaors Corrige URL do CTIR para apontar diretamente para /noticias/2025 ao invés do índice de anos. Impacto esperado: - Redução de ~700-1.050 erros/dia - Taxa de sucesso: 88% → ~99% - Agências ativas: 148 de 161 (92% cobertura) Closes #23
nitaibezerra
left a comment
There was a problem hiding this comment.
Excelente PR! 👏
Descrição muito bem feita — o impacto quantificado (redução de ~700-1.050 erros/dia, taxa de sucesso de 88% → ~99%) facilita demais a decisão de aprovar. Os dois YAMLs estão sincronizados e o código já trata todos os campos adicionados.
Parabéns pela organização e pela rastreabilidade com as issues relacionadas.
Análise técnica confirmou que povosindigenas é uma 7ª agência Volto/SPA: - Plone 6 Volto framework detectado - 269 arrays JSON-LD (3.2x mais que outras agências Volto) - 11 marcadores data-react-helmet - Razzle build system - Conteúdo renderizado via React/JavaScript A agência já estava desabilitada desde 2025-01-15, mas sem disabled_reason documentado. Este commit apenas adiciona a documentação correta do motivo. Total de agências Volto/SPA: 7 (ctav, esg, esporte, hfa, memp, povosindigenas, reconstrucaors)
🔍 Descoberta: 7ª Agência Volto/SPA IdentificadaDurante validação das agências desabilitadas, identifiquei que Evidências Técnicas (Confidence: 95%+)
Comparação com Agências Confirmadas
Conclusão: Status
Impacto
Commit: 34bf7de |
Revisão do PR #25 —
|
| Severidade | Problema | Ação |
|---|---|---|
| MÉDIO | URL do CTIR hardcoded com /2025 — ficará desatualizada em 2027 (padrão já existente com ibama) |
Follow-up: criar issue para automatizar resolução de ano nas URLs |
| BAIXO | Discrepância numérica entre issue (#23: "149 de 155") e descrição do PR ("148 de 161") — cosmético, sem impacto funcional | Opcional: alinhar números na descrição |
Veredito: APROVADO ✅
PR está correto, bem documentado, com os dois YAMLs sincronizados. As mudanças são puramente de configuração e seguem os critérios de aceite da issue #23. O comentário sobre povosindigenas (commit adicional) agrega valor de documentação. O único ponto de atenção real (URL com ano hardcoded) é um padrão pré-existente e não deve bloquear este merge.
🤖 Revisão automatizada com Claude Code
mauriciomendonca
left a comment
There was a problem hiding this comment.
APROVADO — PR correto, bem documentado, YAMLs sincronizados. Apenas configuração, sem risco de breaking change. Ponto de follow-up: URL do CTIR com ano hardcoded (/2025).
Descrição
Resolução da issue #23: desabilita 6 agências gov.br que usam Volto/SPA (React-based CMS) e corrige URL do CTIR.
Mudanças
Agências Desabilitadas (Volto/SPA)
As seguintes agências foram marcadas como
active: falsepois utilizam Volto/SPA, que requer JavaScript para renderizar o conteúdo. BeautifulSoup não consegue extrair notícias dessas páginas:Todas incluem:
disabled_reason: "Volto/SPA - requer JavaScript"disabled_date: "2026-03-18"URL Corrigida
/assuntos/noticias(índice de anos) para/assuntos/noticias/2025(notícias diretas)active: trueImpacto
Arquivos Modificados
src/govbr_scraper/scrapers/config/site_urls.yamldags/config/site_urls.yamlAmbos os arquivos foram sincronizados com as mesmas alterações.
Deploy
Deploy será automático via GitHub Actions ao fazer merge para
main:composer-deploy-dags.yamlatualizará as DAGs no Cloud ComposerRelacionado
Checklist
disabled_reasonedisabled_datesite_urls.yamlsincronizados