KI-Suche

Retrieval-Augmented Generation (RAG)

Auch: RAG, Retrieval Augmented Generation, abrufgestützte Generierung

Retrieval-Augmented Generation (RAG) ist eine Technik, bei der ein Sprachmodell zuerst passende Dokumente aus einer externen Quelle abruft und seine Antwort dann auf diesem abgerufenen Text aufbaut, sodass die Antwort auf konkretem, zitierbarem Material beruht und nicht nur auf Fakten aus dem Trainingswissen des Modells.

RAG ist die Funktionsweise der meisten modernen Antwortmaschinen. Wenn du eine Frage stellst, führt das System zuerst einen Abrufschritt aus, meist eine semantische Suche über einen Index aus Dokumenten, holt die Passagen heraus, die es für am relevantesten hält, und übergibt sie dem Modell als Kontext. Das Modell schreibt dann eine Antwort, die sich auf diese Passagen stützt. Genau deshalb können Werkzeuge wie ChatGPT, Perplexity und Google AI Overviews Quellen nennen und verlinken: Die Quelle liegt dem Modell zum Zeitpunkt der Antwort buchstäblich vor. Ohne Abruf kann ein Modell nur das umschreiben, was zufällig in seinen Trainingsdaten stand, und das kann veraltet, generisch oder für ein Nischenprodukt schlicht nicht vorhanden sein.

Die Pipeline hat zwei Stufen, und jede kann unabhängig scheitern. Der Abruf entscheidet, welche Dokumente in das Kontextfenster gelangen, die Generierung entscheidet, was das Modell damit macht. Eine Seite kann perfekt geschrieben sein und trotzdem schon beim Abruf verlieren, weil sie nie indexiert wurde, nie in Passagen zerlegt wurde, die ein Abrufsystem erfassen kann, oder nie von anderen Quellen bestätigt wurde, denen das System vertraut. Umgekehrt kann ein starker Abruf trotzdem eine schwache Antwort liefern, wenn die zugrunde liegenden Passagen dünn oder widersprüchlich sind. Wer für die KI-Suche optimiert, kümmert sich um beide Stufen, nicht nur um den Text, den ein Mensch lesen würde.

Nimm einen Shopify-Shop, der Merino-Funktionswäsche verkauft. Eine Kundin öffnet ChatGPT und fragt, welche Marke wiederholtes Waschen am besten übersteht. Der Assistent ruft ab, was er zu genau diesem Verhalten findet: Forenbeiträge, ein paar redaktionelle Vergleiche und alle Bewertungstexte, die in lesbarer, strukturierter Form veröffentlicht sind. Hält der Shop seine 900 Bewertungen in einem JavaScript-Widget verborgen, das erst nach dem Laden der Seite rendert, sieht das Abrufsystem oft nur eine leere Hülle und holt nichts heraus. Ein Wettbewerber, dessen Bewertungen in crawlbarem HTML stehen und mit Product- und Review-Schema ausgezeichnet sind, wird stattdessen zitiert, selbst bei insgesamt weniger Bewertungen.

RAG garantiert keine Richtigkeit, und das sollte man ehrlich sagen. Das Modell kann eine Passage trotzdem falsch lesen, zwei Quellen vermischen oder eine Seite zitieren, die die Aussage gar nicht stützt. Auch die Abrufqualität schwankt je nach Frage, sodass eine Seite, die für eine Formulierung zitiert wird, für eine nahe Umschreibung unsichtbar sein kann. Im Handel, wo Käufer KI-Assistenten zunehmend bitten, Produkte zu vergleichen und zu empfehlen, ist die wiederkehrende Lücke, dass echte Kundenbewertungen zwar existieren, aber nicht lesbar, nicht bestätigt oder nicht in einer Form indexiert sind, die ein Abrufsystem herausholt. Abrufbar zu sein ist die Voraussetzung für alles Weitere: Gelangt dein Inhalt nie ins Kontextfenster, bekommt die Qualität deiner Antwort nie die Chance, eine Rolle zu spielen. Genau diese Lücke zu schließen ist die Arbeit, auf die sich BeyondReviews konzentriert.