Wyszukiwanie AI

Wyszukiwanie semantyczne

Inaczej: semantic search, wyszukiwanie znaczeniowe

Wyszukiwanie semantyczne pobiera wyniki na podstawie znaczenia zapytania, a nie dokładnego dopasowania słów kluczowych: system konwertuje zarówno zapytanie, jak i dokumenty na wektory liczbowe (embeddingi) i szereguje wyniki według bliskości tych wektorów, dzięki czemu strona może pasować do pytania, nie zawierając żadnego ze wyszukiwanych słów.

Tradycyjne wyszukiwanie słów kluczowych opierało się na pokrywaniu terminów: strona zajmowała wysoką pozycję, bo powtarzała wyszukiwane słowa. Wyszukiwanie semantyczne mierzy natomiast podobieństwo konceptualne, dzięki czemu zapytanie w stylu "buty na szlak górski" może dopasować produkt opisany jako "wytrzymałe trekkingowe sneakersy" bez żadnych wspólnych słów. Dzieje się tak dlatego, że zarówno zapytanie, jak i dokument są konwertowane na embeddingi, czyli wektory kodujące znaczenie, a system rankinguje według odległości między nimi. Dlatego upychanie słów kluczowych straciło skuteczność: dodawanie kolejnych powtórzeń fraz mało co zmienia w wektorze, natomiast przejrzysty, precyzyjny tekst, który jasno opisuje koncepcję, trafia bliżej zapytań, które mają znaczenie.

Praktyczny wniosek to pisać tak, jak klient naprawdę zadaje pytanie, i definiować temat konkretnie na początku treści, nie zakopując go w środku. Konkretność pozwala embeddingowi lepiej oddać znaczenie: "wodoodporny do 50 metrów" jest bliżej pytania pływaka niż "świetny do wody", bo nazywa konkretny atrybut, który model potrafi zlokalizować. Niejasne, marketingowe sformułowania dryfują ku środkowi przestrzeni wektorowej, blisko wszystkiego i blisko niczego.

Wyobraź sobie sklep Shopify sprzedający żeliwne patelnie. Klient pyta asystenta AI: "jakiej patelni mogę użyć prosto z płyty indukcyjnej do piekarnika bez ryzyka odkształcenia?" Strona produktu nie zawiera tych słów. Mówi natomiast: "w pełni zaprawiona patelnia, odporna na temperaturę do 260 stopni, jednoczęściowa konstrukcja bez plastikowej rączki". W tradycyjnym wyszukiwaniu te opisy mogłyby się rozminąć. W wyszukiwaniu semantycznym leżą blisko siebie, bo "odporna na temperaturę", "jednoczęściowa" i "bez plastikowej rączki" razem kodują koncepcję bezpiecznego przenoszenia z płyty do piekarnika. Sklep wygrywa dopasowanie przez uczciwy opis atrybutu, nie przez zgadywanie dokładnej treści zapytania. Ta sama logika dotyczy opinii: klient, który pisze "zostawiłam ją w piekarniku na 220 stopniach przez godzinę i nie zmieniła kształtu", wzmacnia koncepcję w języku, którego żaden marketer by nie napisał, i właśnie dlatego autentyczny tekst opinii jest cennym materiałem dla systemów wyszukiwania.

Wyszukiwanie semantyczne jest też podstawą większości odpowiedzi AI. Kiedy ChatGPT, Perplexity lub Google AI Overviews gromadzą źródła przed udzieleniem odpowiedzi, zazwyczaj pobierają je przez podobieństwo embeddingów, a nie przez dosłowne słowa kluczowe, a następnie streszczają to, co znajdą. Tekst, który jasno nazywa atrybuty, jest łatwiejszy do pobrania i zacytowania przez te systemy. Ważne zastrzeżenie: podobieństwo to nie to samo co dokładność. Strona może zostać pobrana ze względu na tematyczną bliskość, nawet jeśli zawiera błędy, i właśnie dlatego silniki odpowiedzi AI opierają się na potwierdzeniu przez niezależne źródła. Spójne, rzetelne opisy produktów są cytowane częściej niż sprytnie napisane.

Powiązane pojęcia

Więcej na ten temat

Poradnik: jak pisać z odpowiedzią na początku (po angielsku) →