Objetivo
Consolidar as iniciativas de pesquisa e experimentação em Data Science e NLP aplicadas ao projeto DGB.
Escopo
- Comparativos de modelos (embeddings, classificação, sumarização)
- Exploração de técnicas de NLP (NER, sentimento, similaridade)
- Avaliação de ferramentas e pipelines de dados
- Prototipagem de features baseadas em ML (trending topics, agrupamento, RAG)
Repos envolvidos
- data-science (principal)
- data-platform (integração futura)
Sub-issues
- data-science#1 - Comparativo de Modelos de Embedding PT-BR
- data-science#2 - Fine-tuning vs Transfer Learning vs Zero-shot
- data-science#3 - LLMs para Classificação
- data-science#4 - Estratégias de Sumarização
- data-science#5 - RAG para Q&A sobre Notícias
- data-science#6 - Análise de Sentimento
- data-science#7 - Extração de Entidades (NER)
- data-science#8 - Storage de Embeddings
- data-science#9 - Pipeline de Dados - Pandas vs Polars vs DuckDB
- data-science#10 - Detecção de Tendências
- data-science#11 - Similaridade Cross-Órgãos
- data-science#12 - Técnicas de Resumo Multi-nível
- data-science#13 - Agrupamento de Notícias para Envios Diários
- data-science#14 - Motor de classificação e enriquecimento
Objetivo
Consolidar as iniciativas de pesquisa e experimentação em Data Science e NLP aplicadas ao projeto DGB.
Escopo
Repos envolvidos
Sub-issues