Génération augmentée par récupération (RAG)
La génération augmentée par récupération est une technique où un modèle de langage récupère d'abord des documents pertinents depuis une source externe, puis génère sa réponse en s'appuyant sur ce texte récupéré, de sorte que la réponse reflète un contenu précis et citable plutôt que des faits issus de ses seuls paramètres d'entraînement.
Le RAG est le mode de fonctionnement de la plupart des moteurs de réponse modernes. Quand vous posez une question, le système lance une étape de récupération (le plus souvent une recherche sémantique sur un index de documents), rapporte les passages qu'il juge les plus pertinents, puis les transmet au modèle comme contexte. Le modèle rédige ensuite une réponse qui s'appuie sur ces passages, et c'est pourquoi des outils comme ChatGPT, Perplexity et Google AI Overviews peuvent nommer des sources et créer un lien vers elles : la source est littéralement sous les yeux du modèle au moment de la génération. Sans récupération, un modèle ne peut que paraphraser ce qui se trouvait dans ses données d'entraînement, lesquelles peuvent être périmées, génériques ou tout simplement absentes pour un produit de niche.
Le pipeline comporte deux étapes, et chacune peut échouer indépendamment. La récupération décide quels documents entrent dans la fenêtre de contexte ; la génération décide ce que le modèle en fait. Une page peut être parfaitement rédigée et perdre malgré tout à l'étape de récupération parce qu'elle n'a jamais été indexée, jamais découpée en passages qu'un moteur de récupération peut faire correspondre, ou jamais corroborée par d'autres sources auxquelles le système fait confiance. À l'inverse, une bonne récupération peut produire une réponse faible si les passages sous-jacents sont pauvres ou contradictoires. Optimiser pour la recherche IA, c'est se soucier des deux étapes, pas seulement de la prose qu'un humain lirait.
Prenons une boutique Shopify qui vend des sous-vêtements techniques en mérinos. Un acheteur ouvre ChatGPT et demande quelle marque résiste le mieux à des lavages répétés. L'assistant récupère tout ce qu'il trouve sur ce comportement précis : des fils de discussion sur des forums, quelques comparatifs éditoriaux et tout texte d'avis publié sous une forme lisible et structurée. Si la boutique garde ses 900 avis enfermés dans un widget JavaScript qui s'affiche après le chargement de la page, le moteur de récupération ne voit souvent qu'une coquille vide et ne rapporte rien. Une boutique concurrente dont les avis se trouvent dans du HTML explorable, balisé avec le schéma Product et Review, est citée à sa place, même avec moins d'avis au total.
Le RAG ne garantit pas l'exactitude, et il vaut mieux être honnête à ce sujet. Le modèle peut toujours mal lire un passage, mélanger deux sources ou citer une page qui ne soutient pas réellement l'affirmation. La qualité de la récupération varie aussi selon la requête, si bien qu'une page citée pour une formulation peut rester invisible pour une paraphrase proche. Pour le commerce, où les acheteurs demandent de plus en plus à des assistants IA de comparer et de recommander des produits, l'écart récurrent est que de vrais avis clients existent, mais ne sont ni lisibles, ni corroborés, ni indexés sous une forme qu'un moteur de récupération va rapporter. Être récupérable est la condition préalable à tout le reste : si votre contenu n'entre jamais dans la fenêtre de contexte, la qualité de votre réponse n'a jamais l'occasion de compter. Combler cet écart est le travail sur lequel BeyondReviews se concentre.
