feat(rag): implement guideline ingestion and update UI

PyDevDeep · PyDevDeep · commit 9bf338dfc5d7 · 2026-04-04T18:59:43.000+03:00
Details:
- Added platform indicator to Slack draft cards header.
- Created ingest_guideline_task to download and vectorize PDFs from Slack URLs.
- Wired modal_upload_guideline in feedback.py to trigger the new worker.
- Updated .gitignore for new storage paths.
diff --git a/.gitignore b/.gitignore
@@ -2,6 +2,9 @@
 knowledge_base/doctor_style
 knowledge_base/medical_guidelines
 test_output.txt
+AGENTS.md
+n8nac-config.json
+workflows
 # Python
 __pycache__/
 *.py[cod]
diff --git a/backend/api/routes/feedback.py b/backend/api/routes/feedback.py
@@ -8,6 +8,7 @@
 from backend.config.lexicon import SLACK_UI
 from backend.config.settings import settings
 from backend.workers.tasks.generate_draft import generate_draft_task
+from backend.workers.tasks.ingest_guideline import ingest_guideline_task
 from backend.workers.tasks.publish_post import publish_post_task
 from slack_app.utils.block_builder import (
     build_app_home,
@@ -275,10 +276,29 @@ async def slack_interactions(request: Request):
 
             logger.info("slack_file_uploaded", user_id=user_id, file_name=file_name)
 
-            # TODO: Тут ми створимо таск `ingest_document_task`, який буде
-            # скачувати файл за file_url (використовуючи Slack Token),
-            # парсити PDF/TXT та векторизувати його у Qdrant.
-            # await ingest_document_task.kiq(file_url=file_url, file_name=file_name)
+            # --- СЦЕНАРІЙ 3: Завантаження гайдлайну ---
+        elif callback_id == "modal_upload_guideline":
+            files = (
+                state_values.get("block_file_upload", {})
+                .get("input_file", {})
+                .get("files", [])
+            )
+            if not files:
+                return Response(status_code=400)
+
+            file_info = files[0]
+            file_url = file_info.get("url_private_download")  # РОЗКОМЕНТОВАНО
+            file_name = file_info.get("name")
+
+            logger.info("slack_file_uploaded", user_id=user_id, file_name=file_name)
+
+            await ingest_guideline_task.kiq(file_url=file_url, file_name=file_name)
+
+            return Response(
+                content=json.dumps({"response_action": "clear"}),
+                media_type="application/json",
+                status_code=200,
+            )
 
             # Закриваємо модалку
             return Response(
diff --git a/backend/workers/tasks/__init__.py b/backend/workers/tasks/__init__.py
@@ -1,4 +1,5 @@
 from .generate_draft import generate_draft_task
+from .ingest_guideline import ingest_guideline_task
 from .publish_post import publish_post_task
 
 # from .scheduled_post import scheduled_post_task
@@ -7,6 +8,7 @@
 __all__ = [
     "generate_draft_task",
     "publish_post_task",
-    #    "scheduled_post_task",
+    # "scheduled_post_task",
     "vectorize_published_post_task",
+    "ingest_guideline_task",
 ]
diff --git a/backend/workers/tasks/ingest_guideline.py b/backend/workers/tasks/ingest_guideline.py
@@ -0,0 +1,86 @@
+from pathlib import Path
+
+import httpx
+import structlog
+from llama_index.core import SimpleDirectoryReader, StorageContext, VectorStoreIndex
+from llama_index.core.settings import Settings
+from llama_index.embeddings.openai import (  # type: ignore[reportMissingTypeStubs]
+    OpenAIEmbedding,
+)
+from llama_index.vector_stores.qdrant import (  # type: ignore[reportMissingTypeStubs]
+    QdrantVectorStore,
+)
+from qdrant_client import AsyncQdrantClient
+
+from backend.config.settings import settings
+from backend.workers.broker import broker
+
+logger = structlog.get_logger()
+
+# Налаштування OpenAI Embedding
+_raw_key = settings.OPENAI_API_KEY
+openai_key: str = (
+    _raw_key.get_secret_value()
+    if hasattr(_raw_key, "get_secret_value")
+    else str(_raw_key)
+)
+Settings.embed_model = OpenAIEmbedding(
+    model=settings.OPENAI_MODEL_EMBEDDING, api_key=openai_key
+)
+
+
+@broker.task(task_name="ingest_guideline_task", timeout=300)
+async def ingest_guideline_task(file_url: str, file_name: str) -> None:
+    logger.info("ingest_guideline_started", file_name=file_name)
+
+    try:
+        # 1. Завантаження файлу зі Slack
+        save_dir = Path("knowledge_base/medical_guidelines")
+        save_dir.mkdir(parents=True, exist_ok=True)
+        file_path = save_dir / file_name
+
+        slack_token = (
+            settings.SLACK_BOT_TOKEN.get_secret_value()
+            if hasattr(settings.SLACK_BOT_TOKEN, "get_secret_value")
+            else settings.SLACK_BOT_TOKEN
+        )
+
+        async with httpx.AsyncClient() as client:
+            response = await client.get(
+                file_url, headers={"Authorization": f"Bearer {slack_token}"}
+            )
+            response.raise_for_status()
+            with open(file_path, "wb") as f:
+                f.write(response.content)
+
+        logger.info("file_downloaded_successfully", path=str(file_path))
+
+        # 2. Векторизація через LlamaIndex
+        # Використовуємо SimpleDirectoryReader для конкретного файлу
+        documents = SimpleDirectoryReader(input_files=[str(file_path)]).load_data()
+
+        # Підключаємось до Qdrant (колекція medical_knowledge)
+        qdrant_url = getattr(settings, "QDRANT_URL", "http://127.0.0.1:6333")
+        aclient = AsyncQdrantClient(url=qdrant_url)
+        vector_store = QdrantVectorStore(
+            aclient=aclient, collection_name="medical_knowledge"
+        )
+        storage_context = StorageContext.from_defaults(vector_store=vector_store)
+
+        # Створюємо індекс і вставляємо документи
+        index = VectorStoreIndex.from_vector_store(  # type: ignore[reportUnknownMemberType]
+            vector_store=vector_store, storage_context=storage_context
+        )
+        for doc in documents:
+            doc.metadata["source"] = file_name
+            await index.ainsert(doc)
+
+        logger.info(
+            "guideline_ingestion_success", file_name=file_name, chunks=len(documents)
+        )
+
+        # TODO: Додати notify_slack_on_complete для сповіщення користувача про успіх (опціонально)
+
+    except Exception as e:
+        logger.error("guideline_ingestion_failed", file_name=file_name, error=str(e))
+        raise
diff --git a/slack_app/utils/block_builder.py b/slack_app/utils/block_builder.py
@@ -12,7 +12,7 @@ def build_draft_card(
             "type": "header",
             "text": {
                 "type": "plain_text",
-                "text": SLACK_UI["draft_ready_header"].format(topic=topic),
+                "text": f"{SLACK_UI['draft_ready_header'].format(topic=topic)} | 📢 {platform.upper()}",
                 "emoji": True,
             },
         },