Skip to content

Epic: Data Science & NLP Research #37

@nitaibezerra

Description

@nitaibezerra

Objetivo

Consolidar as iniciativas de pesquisa e experimentação em Data Science e NLP aplicadas ao projeto DGB.

Escopo

  • Comparativos de modelos (embeddings, classificação, sumarização)
  • Exploração de técnicas de NLP (NER, sentimento, similaridade)
  • Avaliação de ferramentas e pipelines de dados
  • Prototipagem de features baseadas em ML (trending topics, agrupamento, RAG)

Repos envolvidos

  • data-science (principal)
  • data-platform (integração futura)

Sub-issues

  • data-science#1 - Comparativo de Modelos de Embedding PT-BR
  • data-science#2 - Fine-tuning vs Transfer Learning vs Zero-shot
  • data-science#3 - LLMs para Classificação
  • data-science#4 - Estratégias de Sumarização
  • data-science#5 - RAG para Q&A sobre Notícias
  • data-science#6 - Análise de Sentimento
  • data-science#7 - Extração de Entidades (NER)
  • data-science#8 - Storage de Embeddings
  • data-science#9 - Pipeline de Dados - Pandas vs Polars vs DuckDB
  • data-science#10 - Detecção de Tendências
  • data-science#11 - Similaridade Cross-Órgãos
  • data-science#12 - Técnicas de Resumo Multi-nível
  • data-science#13 - Agrupamento de Notícias para Envios Diários
  • data-science#14 - Motor de classificação e enriquecimento

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions