Skip to content

Remover código morto HuggingFace no pipeline Cogfy#72

Closed
mauriciomendonca wants to merge 5 commits intomainfrom
cleanup/remove-dead-hf-code-issue-45
Closed

Remover código morto HuggingFace no pipeline Cogfy#72
mauriciomendonca wants to merge 5 commits intomainfrom
cleanup/remove-dead-hf-code-issue-45

Conversation

@mauriciomendonca
Copy link
Contributor

Summary

Closes #45

  • Atualiza mensagens de log enganosas nos scrapers (scrape_manager.py, ebc_scrape_manager.py) que diziam "HF dataset" quando os dados fluem via StorageAdapter → PostgreSQL
  • Atualiza docstrings e logs genéricos no enrichment_manager.py que referenciavam HuggingFace como destino primário
  • Remove ~110 linhas de código morto de export CSV no dataset_manager.py (6 métodos não utilizados, imports órfãos, e self.api = HfApi())

Referências HF dentro de branches condicionais legítimos (dual_write, HF-only) foram mantidas. A DAG sync_postgres_to_huggingface e o StorageAdapter não foram alterados.

Arquivos modificados

Arquivo Mudança
scrape_manager.py 2 log messages: "to HF dataset" → "to storage backend"
ebc_scrape_manager.py 1 log message: "to HF dataset" → "to storage backend"
enrichment_manager.py Docstrings + logs genéricos atualizados
dataset_manager.py 6 métodos mortos + 4 imports + self.api removidos

Test plan

  • 154 testes unitários passando (poetry run pytest tests/unit/ -v)
  • Grep confirma zero referências externas aos métodos removidos
  • _push_dataset_and_csvs preservado e funcional (usado pela DAG e enrichment)
  • Verificar que a DAG sync_postgres_to_huggingface continua funcionando (não afetada — usa HfApi diretamente)
  • Verificar pipeline completo em staging se disponível

🤖 Generated with Claude Code

Mauricio Rodrigues Mendonça and others added 4 commits February 19, 2026 14:24
Replace "to HF dataset" with "to storage backend" in log messages.
Scrapers now receive a StorageAdapter (not DatasetManager), so the
previous messages were inaccurate since production uses STORAGE_BACKEND=postgres.

Closes #45 (partial)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
…nager

Replace "to HF dataset" with "to storage backend" in log message.
EBC scraper receives a StorageAdapter via CLI, not a direct HF DatasetManager.

Closes #45 (partial)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
…ocstrings and logs

Update class docstring, method docstring, generic log messages, and
argparse description to remove HuggingFace-specific wording. The
enrichment pipeline now operates with StorageAdapter and the production
workflow uses STORAGE_BACKEND=postgres.

HF-specific references inside conditional branches (e.g., dual_write
mode) are preserved as they are correctly scoped.

Closes #45 (partial)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
Remove 6 unused methods related to CSV export that were commented out
in the only caller (_push_dataset_and_csvs):
- _push_global_csv, _push_csvs_by_agency, _push_csvs_by_year
- _push_csvs_by_group, _upload_file, _save_and_upload_csv

Also remove orphaned imports (tempfile, requests, retry, HfApi) and
self.api = HfApi() that were only used by the removed methods.

The HuggingFace sync DAG uses direct parquet shard uploads via HfApi,
not these CSV methods. All active DatasetManager methods are preserved.

Closes #45

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
@miguellsfilho
Copy link
Contributor

Code Review - PR #72

Revisor: Claude Code
Data: 2026-02-23


1. Resumo da Análise

O PR realiza limpeza de código morto e atualização de mensagens de log que referenciavam "HF dataset" quando o sistema já usa PostgreSQL como backend principal via StorageAdapter.

Mudanças Realizadas

Arquivo Mudança
scrape_manager.py 2 log messages: "to HF dataset" -> "to storage backend" + modernização de type hints
ebc_scrape_manager.py 1 log message: "to HF dataset" -> "to storage backend"
enrichment_manager.py Docstrings + logs genéricos atualizados
dataset_manager.py 6 métodos mortos + 4 imports + self.api removidos

Impacto: +23/-136 linhas (redução líquida de 113 linhas)


2. Pontos Fortes

  • Escopo bem definido: O PR se manteve fiel à issue, removendo apenas código genuinamente morto
  • Commits atômicos: 4 commits bem estruturados, cada um focado em uma área específica
  • Preservação de funcionalidade legítima: Métodos usados pela DAG (_push_dataset_to_hub, _push_reduced_dataset) foram mantidos
  • Verificação de impacto: Grep confirmou que os métodos removidos não eram referenciados externamente
  • Testes passando: 154 testes unitários continuam funcionando
  • Modernização de código: Type hints atualizados (List[str] -> list[str]), abertura de arquivo simplificada

3. Verificações Realizadas

Verificação Status
Métodos removidos não são usados externamente
DAG sync_postgres_to_huggingface independente
Testes unitários (154)
CI Pipeline
Imports órfãos removidos corretamente
Funcionalidade legítima preservada

4. Sugestões (Opcionais - Para PRs Futuros)

Nome do método _push_dataset_and_csvs

O método agora faz apenas:

self._push_dataset_to_hub(dataset)
self._push_reduced_dataset(df)

Não há mais CSVs sendo gerados. Considerar renomear para _push_datasets ou _push_dataset_variants em PR futuro.

Nota: Está fora do escopo desta issue e não deve bloquear o merge.


5. Decisão

APROVADO

O PR está pronto para merge. As mudanças são corretas, bem testadas e alinhadas com a issue #45. A remoção de código morto melhora a manutenibilidade do codebase sem introduzir riscos.


Checklist Final

  • Código resolve o problema descrito na issue
  • Não introduz bugs ou regressões
  • Testes passando
  • CI passando
  • Sem problemas de segurança
  • Código limpo e bem estruturado
  • Commits bem organizados

Revisão gerada com Claude Code

miguellsfilho
miguellsfilho previously approved these changes Feb 23, 2026
Merge origin/main into cleanup branch. Conflicts in scrape_manager.py
and ebc_scrape_manager.py due to new error handling and metrics tracking
added in main (commit 1c2b19b). Resolved by keeping the new error
handling/metrics from main while applying our log message fix
("to storage backend" instead of "to HF dataset").

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
Copy link
Contributor

@miguellsfilho miguellsfilho left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

✅ APROVADO

Resumo da Revisão

O PR remove corretamente código morto relacionado ao HuggingFace e atualiza mensagens de log para refletir a arquitetura atual (PostgreSQL via StorageAdapter).

Verificações Realizadas

Verificação Status
Métodos removidos não são usados externamente
DAG sync_postgres_to_huggingface independente
Testes unitários (154)
CI Pipeline
Funcionalidade legítima preservada

Mudanças Aprovadas

  • dataset_manager.py: Remoção de 6 métodos mortos (~110 linhas), imports órfãos e self.api = HfApi()
  • scrape_manager.py / ebc_scrape_manager.py: Logs atualizados + type hints modernizados
  • enrichment_manager.py: Docstrings e logs corrigidos

A remoção de código morto melhora a manutenibilidade sem introduzir riscos.


Revisão gerada com Claude Code

@mauriciomendonca
Copy link
Contributor Author

Este PR foi dividido e migrado para os repositórios corretos após a extração do scraper para o repo standalone.

Novos PRs:

Fechando este PR como obsoleto.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

Remover Código Morto HuggingFace no Pipeline Cogfy

3 participants