Recherche IA

Recherche sémantique (semantic search)

Aussi: recherche sémantique, semantic search, recherche par le sens

La recherche sémantique retourne des résultats selon le sens plutôt que selon la correspondance exacte des mots-clés : elle convertit la requête et les documents candidats en embeddings (des vecteurs numériques), puis les classe selon la proximité de ces vecteurs, si bien qu’une page peut répondre à une question même sans partager un mot avec elle.

L’ancienne recherche par mots-clés comptait le nombre de termes communs : une page se classait parce qu’elle répétait les mots recherchés. La recherche sémantique mesure plutôt la proximité conceptuelle, si bien qu’une requête comme « des chaussures qui tiennent en trail » peut faire remonter un produit décrit comme « baskets tout-terrain renforcées », sans aucun mot en commun. Ce changement vient du fait que la requête et le document sont tous deux transformés en embeddings, des vecteurs qui encodent le sens, et que le système classe selon la distance entre eux. C’est pourquoi le bourrage de mots-clés a perdu son effet : remplir une page de formules répétées ne déplace presque pas le vecteur, alors qu’une écriture claire et précise, qui énonce le concept simplement, tend à se rapprocher des requêtes qui comptent.

La leçon pratique est d’écrire comme un client poserait réellement sa question, et de définir le sujet en langage direct dès le haut du contenu plutôt que de l’enfouir. La précision aide l’embedding à porter un sens réel : « étanche jusqu’à 50 mètres » se rapproche davantage de la question d’un nageur que « idéal pour l’eau », car cette formule nomme un attribut concret que le modèle sait situer. Les formulations vagues et promotionnelles dérivent vers le centre de l’espace, proches de tout et proches de rien.

Prenons une boutique Shopify qui vend des ustensiles en fonte. Un client demande à un assistant : « quelle poêle puis-je passer directement de la plaque au four sans qu’elle se déforme ? » La page produit n’emploie jamais ces mots. Elle indique en revanche : « poêle entièrement culottée, va au four jusqu’à 260 degrés, construction monobloc sans manche plastique ». En recherche par mots-clés, ces formulations pourraient ne jamais se rencontrer. En recherche sémantique, elles se trouvent proches, car va au four, monobloc et sans manche plastique encodent ensemble le concept de passer de la plaque au four en toute sécurité. La boutique gagne la correspondance en décrivant l’attribut honnêtement, et non en devinant la requête exacte. La même logique vaut pour les avis : un client qui écrit « je l’ai laissée une heure dans un four à 220 degrés et elle a tenu sa forme » renforce le concept dans un langage qu’aucun marketeur n’écrirait, ce qui explique en partie pourquoi le texte d’avis authentique est une matière première utile pour la recherche.

La recherche sémantique sous-tend aussi la plupart des réponses IA. Quand ChatGPT, Perplexity ou Google AI Overviews rassemblent des sources avant de répondre, ils les récupèrent généralement par proximité d’embeddings plutôt que par mots-clés littéraux, puis résument ce qu’ils trouvent. Une écriture qui nomme les attributs simplement est donc plus facile à récupérer et à citer pour ces systèmes. Une réserve mérite d’être posée : proximité n’est pas exactitude. Une page peut être récupérée parce qu’elle est proche du sujet tout en étant fausse, ce qui explique en partie pourquoi les moteurs de réponse s’appuient sur la corroboration entre sources indépendantes, et pourquoi des descriptions produit cohérentes et factuelles sont citées plus souvent que des descriptions astucieuses.

Termes associés

Pour aller plus loin

Guide : placer la réponse en premier (en anglais) →