Skip to content

Agregar procesamiento automático de referencias y soporte markuplib para análisis estructural de DOCX #59

@eduranm

Description

@eduranm

Descrição da nova funcionalidade

Incorporar soporte de procesamiento automático para referencias bibliográficas y utilidades de lectura estructural de archivos DOCX dentro del flujo de markup_doc, para que al cargar un documento se puedan identificar bloques del texto, detectar referencias, enviarlas al modelo correspondiente y persistir el resultado estructurado en el documento de marcación.

Critérios de aceitação

  • La app markuplib debe estar registrada.

  • Debe existir el paquete markuplib

  • Proporcionar una clase utilitaria para lectura y análisis de DOCX, incluyendo al menos soporte para:

    • apertura del documento;
    • extracción de numeraciones;
    • extracción de hipervínculos;
    • extracción estructurada del contenido;
    • normalización de ciertos fragmentos MathML.
  • Debe existir Utilidades para:

    • determinar el tipo de modelo LLM a utilizar;
    • dividir bloques de referencias para procesamiento;
    • procesar una referencia individual;
    • procesar lotes de referencias;
    • buscar referencias por autor y año;
    • extraer citas APA desde texto;
    • limpiar etiquetas;
    • mapear texto etiquetado;
    • restaurar etiquetas sobre citas detectadas;
    • generar objetos etiquetados base para el flujo de marcación.
  • Funciones para:

    • marcar metadatos de artículo;
    • marcar una referencia individual;
    • marcar bloques de referencias.
  • Incorporar la tarea para:

    • recuperar el documento DOCX cargado;
    • abrir y analizar el archivo;
    • detectar y acumular referencias;
    • procesar referencias usando LLaMA o Gemini según la configuración disponible;
    • persistir el resultado estructurado en el documento de marcación;
    • actualizar el estado del documento al finalizar.
  • Disparar el procesamiento automático después de crear el documento.

Anexos

  • Este issue incorpora el soporte base para análisis estructural de DOCX y el procesamiento automático de referencias dentro del flujo de marcación documental.

Referências

  • Django settings
  • Celery tasks
  • Wagtail admin hooks
  • python-docx
  • lxml

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions