Remover código morto HuggingFace no pipeline Cogfy#72
Remover código morto HuggingFace no pipeline Cogfy#72mauriciomendonca wants to merge 5 commits intomainfrom
Conversation
Replace "to HF dataset" with "to storage backend" in log messages. Scrapers now receive a StorageAdapter (not DatasetManager), so the previous messages were inaccurate since production uses STORAGE_BACKEND=postgres. Closes #45 (partial) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
…nager Replace "to HF dataset" with "to storage backend" in log message. EBC scraper receives a StorageAdapter via CLI, not a direct HF DatasetManager. Closes #45 (partial) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
…ocstrings and logs Update class docstring, method docstring, generic log messages, and argparse description to remove HuggingFace-specific wording. The enrichment pipeline now operates with StorageAdapter and the production workflow uses STORAGE_BACKEND=postgres. HF-specific references inside conditional branches (e.g., dual_write mode) are preserved as they are correctly scoped. Closes #45 (partial) Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
Remove 6 unused methods related to CSV export that were commented out in the only caller (_push_dataset_and_csvs): - _push_global_csv, _push_csvs_by_agency, _push_csvs_by_year - _push_csvs_by_group, _upload_file, _save_and_upload_csv Also remove orphaned imports (tempfile, requests, retry, HfApi) and self.api = HfApi() that were only used by the removed methods. The HuggingFace sync DAG uses direct parquet shard uploads via HfApi, not these CSV methods. All active DatasetManager methods are preserved. Closes #45 Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
Code Review - PR #72Revisor: Claude Code 1. Resumo da AnáliseO PR realiza limpeza de código morto e atualização de mensagens de log que referenciavam "HF dataset" quando o sistema já usa PostgreSQL como backend principal via Mudanças Realizadas
Impacto: +23/-136 linhas (redução líquida de 113 linhas) 2. Pontos Fortes
3. Verificações Realizadas
4. Sugestões (Opcionais - Para PRs Futuros)Nome do método
|
Merge origin/main into cleanup branch. Conflicts in scrape_manager.py and ebc_scrape_manager.py due to new error handling and metrics tracking added in main (commit 1c2b19b). Resolved by keeping the new error handling/metrics from main while applying our log message fix ("to storage backend" instead of "to HF dataset"). Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
miguellsfilho
left a comment
There was a problem hiding this comment.
✅ APROVADO
Resumo da Revisão
O PR remove corretamente código morto relacionado ao HuggingFace e atualiza mensagens de log para refletir a arquitetura atual (PostgreSQL via StorageAdapter).
Verificações Realizadas
| Verificação | Status |
|---|---|
| Métodos removidos não são usados externamente | ✅ |
| DAG sync_postgres_to_huggingface independente | ✅ |
| Testes unitários (154) | ✅ |
| CI Pipeline | ✅ |
| Funcionalidade legítima preservada | ✅ |
Mudanças Aprovadas
- dataset_manager.py: Remoção de 6 métodos mortos (~110 linhas), imports órfãos e
self.api = HfApi() - scrape_manager.py / ebc_scrape_manager.py: Logs atualizados + type hints modernizados
- enrichment_manager.py: Docstrings e logs corrigidos
A remoção de código morto melhora a manutenibilidade sem introduzir riscos.
Revisão gerada com Claude Code
|
Este PR foi dividido e migrado para os repositórios corretos após a extração do scraper para o repo standalone. Novos PRs:
Fechando este PR como obsoleto. |
Summary
Closes #45
scrape_manager.py,ebc_scrape_manager.py) que diziam "HF dataset" quando os dados fluem viaStorageAdapter→ PostgreSQLenrichment_manager.pyque referenciavam HuggingFace como destino primáriodataset_manager.py(6 métodos não utilizados, imports órfãos, eself.api = HfApi())Referências HF dentro de branches condicionais legítimos (dual_write, HF-only) foram mantidas. A DAG
sync_postgres_to_huggingfacee oStorageAdapternão foram alterados.Arquivos modificados
scrape_manager.pyebc_scrape_manager.pyenrichment_manager.pydataset_manager.pyself.apiremovidosTest plan
poetry run pytest tests/unit/ -v)_push_dataset_and_csvspreservado e funcional (usado pela DAG e enrichment)sync_postgres_to_huggingfacecontinua funcionando (não afetada — usaHfApidiretamente)🤖 Generated with Claude Code