Geração Aumentada por Recuperação (RAG)
Geração aumentada por recuperação (RAG) é uma técnica em que um modelo de linguagem primeiro recupera documentos relevantes de uma fonte externa e, em seguida, gera a resposta com base nesses textos, garantindo que a resposta reflita material específico e citável, e não apenas o que o modelo aprendeu durante o treinamento.
RAG é como a maioria dos motores de resposta modernos funciona. Quando você faz uma pergunta, o sistema executa uma etapa de recuperação, normalmente uma busca semântica sobre um índice de documentos, extrai as passagens julgadas mais relevantes e as entrega ao modelo como contexto. O modelo então redige uma resposta com base nessas passagens, e é por isso que ferramentas como ChatGPT, Perplexity e Google AI Overviews conseguem citar fontes e criar links para elas: a fonte está literalmente diante do modelo no momento em que ele gera a resposta. Sem recuperação, o modelo só consegue parafrasear o que estava nos seus dados de treinamento, que podem estar desatualizados, ser genéricos ou simplesmente inexistentes para um produto de nicho.
O pipeline tem dois estágios, e cada um pode falhar de forma independente. A recuperação decide quais documentos entram na janela de contexto; a geração decide o que o modelo faz com eles. Uma página pode estar escrita de forma cuidadosa e ainda assim perder na etapa de recuperação porque nunca foi indexada, nunca foi dividida em passagens que o recuperador consiga identificar ou nunca foi corroborada por outras fontes em que o sistema confia. Por outro lado, uma recuperação eficiente ainda pode produzir uma resposta fraca se as passagens subjacentes forem superficiais ou contraditórias. Otimizar para a busca por IA significa cuidar dos dois estágios, e não apenas do texto que um ser humano leria.
Considere uma loja Shopify que vende cosméticos naturais. Um cliente abre o ChatGPT e pergunta qual marca mantém a qualidade após uso prolongado. O assistente recupera o que encontra sobre esse comportamento específico: discussões em fóruns, alguns conteúdos editoriais e qualquer texto de avaliação publicado em formato legível e estruturado. Se a loja mantém suas 900 avaliações presas em um widget JavaScript que só renderiza depois do carregamento da página, o recuperador com frequência vê apenas uma estrutura vazia e não extrai nada. Um concorrente cujas avaliações estão em HTML rastreável, marcado com schema Product e Review, acaba sendo citado no lugar, mesmo com menos avaliações no total.
RAG não garante exatidão, e vale ser honesto quanto a isso. O modelo ainda pode interpretar mal uma passagem, misturar duas fontes ou citar uma página que não sustenta de fato a afirmação feita. A qualidade da recuperação também varia conforme a consulta, de modo que uma página que recebe uma citação para uma determinada formulação pode ser invisível para uma paráfrase próxima. No comércio eletrônico, onde compradores recorrem cada vez mais a assistentes de IA no Google, no Mercado Livre e em outros canais para comparar e recomendar produtos, o problema recorrente é que avaliações genuínas de clientes existem, mas não estão legíveis, corroboradas ou indexadas de uma forma que um recuperador consiga extrair. Ser recuperável é a condição mínima para tudo o mais: se o seu conteúdo nunca entra na janela de contexto, a qualidade da sua resposta nunca tem a chance de importar. Fechar essa lacuna é o trabalho que a BeyondReviews faz.
