Glossaire
RAG (Retrieval-Augmented Generation)
Le RAG (Retrieval-Augmented Generation) est une architecture IA qui couple un grand modèle de langue avec une étape de récupération sémantique préalable — typiquement via une base vectorielle — pour ancrer la génération dans des données fraîches, privées ou spécifiques au domaine que le modèle ne connaît pas par cœur.
Aussi appelé
- RAG
- Retrieval-Augmented Generation
Le RAG résout 3 limites des LLMs purs : (1) **knowledge cutoff** — les données d'entraînement du modèle ne contiennent pas l'information créée après leur date de coupure ; (2) **hallucinations** — le modèle invente quand il ne sait pas ; (3) **données privées** — le modèle ne connaît pas le contenu d'une entreprise donnée.
Pipeline standard : indexation (split documents en chunks, embed chaque chunk, stocker dans vector DB) puis runtime (embed la requête, retrouver les top-k chunks proches, injecter dans le prompt avec instruction "réponds en t'appuyant sur ces sources").
Variantes 2026 : RAG hybride (vector cosine + BM25 keyword), agentic RAG (l'agent décide quoi récupérer en plusieurs tours), tool-RAG (récupération d'outils plutôt que de documents), GraphRAG (récupération sur un graphe plutôt qu'un vector store plat).
Dans le produit chatsocial.fr
chatsocial.fr utilise du RAG hybride à plusieurs étages : tool-RAG pgvector + BM25 pour la sélection d'outils par tour, KG-RAG pour la récupération de contexte marque, et un cache de résultats outils pour la dédup intra-conversation.
Questions fréquentes
Quelle taille de chunk pour le RAG ?
Pour du texte technique : 500-1000 tokens. Pour du marketing / brand voice : 200-500 tokens. La règle : un chunk doit pouvoir être pertinent et auto-suffisant pris isolément.
Embedding model recommandé en 2026 ?
OpenAI text-embedding-3-large pour la qualité, ou voyage-3 / cohere-embed-v3 pour le multi-lingue avec un meilleur ratio prix-qualité. Pour le français en particulier, Voyage est souvent en tête.