Glossaire

Embeddings vectoriels

Les embeddings vectoriels sont des représentations numériques d'unités de texte (mots, phrases, documents entiers) dans un espace vectoriel à plusieurs centaines ou milliers de dimensions, où la proximité géométrique entre deux vecteurs reflète leur similarité sémantique.

Aussi appelé

  • embeddings
  • vecteurs sémantiques
  • vector embeddings

Concrètement, un modèle d'embedding (text-embedding-3-large, voyage-3, BGE, etc.) prend un texte en entrée et retourne un vecteur de taille fixe (souvent 1024 ou 1536 dimensions). Deux textes au sens proche produisent des vecteurs proches au sens de la distance cosinus.

C'est la brique de base de toutes les architectures de récupération sémantique : RAG, tool-RAG, recommandation de contenu, déduplication, clustering. La précision dépend du modèle utilisé (text-embedding-3-large > ada-002), de la langue (les modèles entraînés multi-lingue type Voyage performent mieux que les modèles anglais sur du français), et de la stratégie de chunking en amont.

Stockage en 2026 : pgvector (Postgres natif, idéal jusqu'à 10M vecteurs par tenant), Qdrant (perf brutes plus élevées, opéré séparément), Pinecone (managed, prix premium). Pour la plupart des SaaS, pgvector suffit largement.

Dans le produit chatsocial.fr

chatsocial.fr stocke les embeddings d'outils MCP et d'entités du knowledge graph dans Postgres pgvector eu-west-1. Modèle d'embedding : OpenAI text-embedding-3-large 1536 dim.

Questions fréquentes

  • Pourquoi pgvector plutôt que Pinecone ?

    Pour un volume jusqu'à quelques millions de vecteurs par tenant, pgvector est aussi performant avec l'avantage de l'opération unifiée (une seule base à sauvegarder, RLS native, jointures SQL directes avec les autres tables). Pinecone devient pertinent au-delà.

  • Cosine ou Euclidean distance ?

    Cosine pour la grande majorité des cas (la magnitude du vecteur n'a pas de sens sémantique, seule la direction compte). Euclidean uniquement pour des cas spécifiques type recherche d'images normalisées.