[embeddings-computer]: Create by parmentf · Pull Request #409 · Inist-CNRS/web-services

parmentf · 2026-03-16T15:15:13Z

No description provided.

leogail · 2026-03-17T12:51:40Z

+            // IMPORTANT : chemin *logique* du modèle à l’intérieur de /models
+            // Si tu as /models/Xenova/all-MiniLM-L6-v2, tu mets exactement :


question: Je ne suis pas sûr de comprendre ce commentaire : le modèle est téléchargé dans un le dossier /models/Xenova ?

Oups. Ça se voit que ce n'est pas moi qui ai écrit ce commentaire ? :P
Le modèle est stocké dans models/Xenova/all-MiniLM-L6-v2 (sans / au début).

leogail · 2026-03-17T12:53:36Z

+#!/usr/bin/env bash
+set -euo pipefail
+
+MODEL_ID="Xenova/all-MiniLM-L6-v2"


praise: Bonne idée de télécharger directement le modèle avec un message d'erreur (ça évite le stockage inutile dans le dav)

Et surtout d'avoir à le télécharger à chaque fois qu'on lance le programme.

leogail · 2026-03-17T12:55:47Z

+        {
+            "url": "http://vptdmservices.intra.inist.fr:49225/",
+            "description": "Latest version for production",
+            "#DISABLED#x-profil": "Standard"


polish: (bien penser à supprimer le "disabled" sur un nouveau service ! )

leogail · 2026-03-17T12:57:46Z

+[{
+    "value": [
+        [
+            -0.015692012384533882,


thought: Je me demande s'il ne faut pas sauvegarder les embeddings avec moins de précision (Float32 voire Float16 plutôt que Float64 ) ? => cela réduirait la puissance de calcul nécessaire ; à voir si on ne perd pas trop de précision.

Mais ici ils ne sont pas sauvegardés, simplement calculés.
C'est lors du stockage dans une base vectorielle qu'il faut voir ce qui est le mieux (à mon avis).
Mais tu as raison, c'est une question de compromis taille/précision.

Qdrant recommande d’utiliser des embeddings stockés en Float32 par défaut, avec la possibilité de descendre à Float16 (voire Uint8 via quantification) si l’objectif est de réduire la taille en mémoire avec un impact limité sur la qualité. studywithgpt

Types de précision supportés

Float32 :

Type par défaut pour les vecteurs denses. studywithgpt

4 octets par composante, bon compromis général précision/perf. studywithgpt

Float16 :

Nombre flottant 16 bits, 2 octets par composante. studywithgpt

Impact « négligeable » sur la qualité de la recherche dans beaucoup de cas, tout en divisant la mémoire par deux. studywithgpt

Uint8 (via quantification) :

Représentation entière 8 bits (0–255), nécessite une étape de quantification adaptée au modèle. github

Permet des gains importants en compression et vitesse mais avec une légère perte de précision dépendant de la méthode (scalar, product, binary quantization). github

Recommandation pratique

Si tu n’as pas de contraintes fortes de RAM ou de latence : reste en Float32 pour la simplicité. studywithgpt

Si ton index devient volumineux ou que tu vises de gros volumes (RAG web‑scale, multi‑tenant, etc.) :

tester Float16 d’abord (souvent « gratuit » en qualité),

puis les schémas de quantification de Qdrant (scalar/binary) si le coût mémoire devient critique, en mesurant la dégradation de la précision de recherche. github

Voir aussi Scalar Quantization: Background, Practices & More | Qdrant

feat(embeddings-computer): Create

bc3da58

parmentf requested review from Luc-Ank and leogail March 16, 2026 15:15

parmentf self-assigned this Mar 16, 2026

parmentf added the enhancement New feature or request label Mar 16, 2026

parmentf mentioned this pull request Mar 17, 2026

[text-lucene] create service #407

Merged

leogail approved these changes Mar 17, 2026

View reviewed changes

parmentf added 3 commits March 18, 2026 11:19

release ws-embeddings-computer@0.1.0

f207391

refactor(embeddings-computer): Improve comments

ffb5aa8

Merge branch 'main' into services/embeddings-computer/create

a41eec7

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[embeddings-computer]: Create#409

[embeddings-computer]: Create#409
parmentf wants to merge 4 commits into
mainfrom
services/embeddings-computer/create

parmentf commented Mar 16, 2026

Uh oh!

leogail Mar 17, 2026 •

edited

Loading

Uh oh!

parmentf Mar 17, 2026

Uh oh!

leogail Mar 17, 2026

Uh oh!

parmentf Mar 17, 2026

Uh oh!

leogail Mar 17, 2026

Uh oh!

leogail Mar 17, 2026

Uh oh!

parmentf Mar 17, 2026

Uh oh!

parmentf Mar 17, 2026

Uh oh!

parmentf Mar 17, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

		// IMPORTANT : chemin logique du modèle à l’intérieur de /models
		// Si tu as /models/Xenova/all-MiniLM-L6-v2, tu mets exactement :

Conversation

parmentf commented Mar 16, 2026

Uh oh!

leogail Mar 17, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Types de précision supportés

Recommandation pratique

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

leogail Mar 17, 2026 •

edited

Loading