SEO

Explorabilité (crawlability)

Aussi: crawlability, explorabilité, capacité d'exploration, crawl

L'explorabilité (crawlability) désigne la facilité avec laquelle un robot de moteur de recherche atteint une page et lit son contenu, selon que la page est liée, autorisée par les règles robots, servie sans erreur et rendue de sorte que son texte figure dans le HTML que le robot analyse réellement.

Une page peut être en ligne pour les visiteurs humains et rester invisible pour un robot d'exploration. Le robot doit d'abord trouver une URL via un lien ou un sitemap, être autorisé à la récupérer (le fichier robots.txt, la directive noindex et les codes de statut HTTP en décident), puis extraire un vrai texte de la réponse. Si l'une de ces étapes échoue, le contenu n'entre pas dans l'index, quelle que soit sa qualité. L'explorabilité est la condition préalable à tout le reste : une page qui ne peut être ni atteinte ni lue ne peut pas se classer, ne peut pas obtenir de rich snippet et ne peut être citée par quoi que ce soit.

L'étape du rendu est là où les boutiques modernes perdent discrètement du terrain. Le contenu injecté par JavaScript après le chargement de la page, comme un widget d'avis tiré d'un script externe ou une iframe, n'est souvent pas présent dans le HTML initial. Certains robots exécutent le JavaScript avec un délai, ou pas du tout, si bien que ces avis peuvent rester inexplorables : le client les voit, le robot non. Les iframes sont un piège particulier, car leur contenu se trouve sur une URL distincte et est rarement attribué à la page hôte.

Prenons une boutique Shopify qui vend des sous-vêtements techniques en mérinos. La page produit affiche 240 avis avec une note moyenne de 4,7 étoiles, chargés par une application d'avis qui inscrit les étoiles et les citations des clients dans la page après que le navigateur a exécuté son script. Pour un client, la page semble complète. Pour un robot qui récupère la réponse brute, le contenu principal se résume à un titre de produit, un prix et une courte description : les 240 avis ne figurent tout simplement pas dans le document. Le marchand suppose que la preuve sociale travaille pour le référencement alors que, au niveau où le robot voit la page, elle n'existe pas.

Le test honnête consiste à récupérer le HTML brut (afficher le code source, ou une requête curl) et à y chercher le texte réel des avis. S'il manque là, il manque aussi dans la vue du robot. Cela compte désormais au-delà de la recherche classique. Les moteurs de réponse comme ChatGPT, Perplexity et Google AI Overviews composent leurs réponses à partir du texte qu'ils peuvent récupérer et analyser, et l'essentiel de cette récupération s'appuie sur le même HTML explorable plutôt que sur un rendu complet de chaque page dans un navigateur. Quand un acheteur demande à un assistant quel sous-vêtement en mérinos tient bien après des lavages répétés, le modèle ne peut s'appuyer que sur le langage des avis qu'il a pu lire. Les avis enfermés dans un widget côté client uniquement ne contribuent en rien à cette réponse.

Rendre les avis existants lisibles, corroborés et cités par la recherche et l'IA, c'est la lacune que BeyondReviews comble, en effectuant le rendu de ce contenu côté serveur pour que les mots se trouvent dans le HTML que le robot analyse dès la première requête, plutôt que de les laisser bloqués dans un script que seul le navigateur exécute.

Termes associés

Pour aller plus loin