Ricerca AI

Retrieval-Augmented Generation (RAG)

Anche: RAG, generazione aumentata dal recupero

La retrieval-augmented generation (RAG) è una tecnica con cui un modello linguistico recupera prima i documenti pertinenti da una fonte esterna, poi genera la risposta basandosi su quel testo, così il risultato riflette materiale specifico e citabile invece dei soli fatti memorizzati nei pesi del modello.

La RAG è il modo in cui funziona la maggior parte dei motori di risposta moderni. Quando poni una domanda, il sistema esegue una fase di recupero (di solito una ricerca semantica su un indice di documenti), riporta i passaggi che giudica più pertinenti e li passa al modello come contesto. Il modello scrive poi una risposta che attinge a quei passaggi, ed è per questo che strumenti come ChatGPT, Perplexity e Google AI Overviews possono nominare le fonti e collegarle: la fonte è letteralmente davanti al modello nel momento della generazione. Senza recupero, un modello può solo parafrasare ciò che era presente nei suoi dati di addestramento, che possono essere datati, generici o del tutto assenti per un prodotto di nicchia.

La pipeline ha due fasi, e ciascuna può fallire in modo indipendente. Il recupero decide quali documenti entrano nella finestra di contesto; la generazione decide cosa il modello ne fa. Una pagina può essere scritta in modo impeccabile e perdere comunque nella fase di recupero perché non è mai stata indicizzata, mai suddivisa in passaggi che un sistema di recupero possa abbinare, o mai confermata da altre fonti di cui il sistema si fida. Al contrario, un recupero efficace può comunque produrre una risposta debole se i passaggi di partenza sono scarni o contraddittori. Ottimizzare per la ricerca AI significa occuparsi di entrambe le fasi, non solo del testo che leggerebbe una persona.

Prendi un negozio Shopify che vende capi termici in lana merino. Un cliente apre ChatGPT e chiede quale marca regga meglio dopo lavaggi ripetuti. L'assistente recupera tutto ciò che trova su quel comportamento preciso: discussioni nei forum, un paio di articoli comparativi e qualsiasi testo di recensione pubblicato in forma leggibile e strutturata. Se il negozio tiene le sue 900 recensioni chiuse dentro un widget JavaScript che si carica dopo l'apertura della pagina, il sistema di recupero spesso vede un guscio vuoto e non estrae nulla. Un concorrente le cui recensioni stanno in HTML scansionabile, marcato con schema Product e Review, viene citato al suo posto, anche con meno recensioni in totale.

La RAG non garantisce la correttezza, ed è giusto essere onesti su questo. Il modello può comunque interpretare male un passaggio, mescolare due fonti o citare una pagina che in realtà non sostiene l'affermazione. Anche la qualità del recupero varia in base alla domanda, quindi una pagina che guadagna una citazione per una formulazione può risultare invisibile per una parafrasi simile. Per il commercio, dove i clienti chiedono sempre più spesso agli assistenti AI di confrontare e consigliare prodotti, la lacuna ricorrente è che recensioni autentiche dei clienti esistono ma non sono leggibili, confermate o indicizzate in una forma che un sistema di recupero possa estrarre. Essere recuperabili è la precondizione di tutto il resto: se i tuoi contenuti non entrano mai nella finestra di contesto, la qualità della tua risposta non ha mai la possibilità di contare. Colmare questa lacuna è il lavoro su cui si concentra BeyondReviews.