SEO

Rastreabilidad (crawlability)

También: crawlability, capacidad de rastreo

La rastreabilidad es la facilidad con la que el rastreador de un buscador puede llegar a una página y leer su contenido, y depende de que la página esté enlazada, permitida por las reglas de robots, servida sin errores y renderizada de modo que su texto exista en el HTML que el rastreador analiza.

Una página puede estar activa para las personas que la visitan y aun así ser invisible para un rastreador. El rastreador tiene que encontrar la URL a través de un enlace o un sitemap, tener permiso para solicitarla (lo deciden el robots.txt, la directiva noindex y los códigos de estado HTTP) y luego extraer texto real de la respuesta. Si alguno de esos pasos falla, el contenido no entra en el índice, por bueno que sea. La rastreabilidad es la condición previa de todo lo demás: una página a la que no se puede llegar ni leer no puede posicionar, no puede ganar un rich snippet y no puede ser citada por nada.

El paso de renderizado es donde las tiendas modernas pierden terreno sin darse cuenta. El contenido que se inyecta con JavaScript después de cargar la página, como un widget de reseñas que llega desde un script de terceros o desde un iframe, a menudo no está presente en el HTML inicial. Algunos rastreadores renderizan el JavaScript con retraso o directamente no lo hacen, así que esas reseñas pueden quedar fuera del rastreo: el comprador las ve, el rastreador no. Los iframes son una trampa particular, ya que su contenido vive en una URL aparte y rara vez se atribuye a la página que lo aloja.

Piensa en una tienda de Shopify que vende ropa interior técnica de lana merino. La página de producto muestra 240 reseñas con una media de 4,7 estrellas, cargadas por una aplicación de reseñas que escribe las estrellas y los comentarios de los clientes en la página después de que el navegador ejecute su script. Para el comprador, la página parece completa. Para un rastreador que solicita la respuesta en bruto, el contenido principal es un título de producto, un precio y una descripción corta: las 240 reseñas sencillamente no están en el documento. El comerciante da por hecho que esa prueba social trabaja a favor del posicionamiento cuando, al nivel que ve el rastreador, no existe.

La prueba honesta es solicitar el HTML en bruto (ver el código fuente, o una petición con curl) y buscar el texto real de las reseñas. Si falta ahí, también falta en lo que ve el rastreador. Esto ya importa más allá del buscador clásico. Los motores de respuesta como ChatGPT, Perplexity y Google AI Overviews construyen sus respuestas a partir del texto que pueden recuperar y analizar, y la mayor parte de esa recuperación se apoya en ese mismo HTML rastreable, no en un renderizado completo de cada página en un navegador. Cuando un comprador pregunta a un asistente qué prenda de lana merino aguanta mejor lavados repetidos, el modelo solo puede recurrir al lenguaje de las reseñas que logró leer. Las reseñas atrapadas en un widget que solo funciona en el cliente no aportan nada a esa respuesta.

Conseguir que las reseñas existentes sean legibles, queden corroboradas y las citen el buscador y la IA es el hueco que cubre BeyondReviews, renderizando ese contenido en el servidor para que las palabras estén en el HTML que el rastreador analiza en la primera petición, en lugar de dejarlas encerradas en un script que solo ejecuta el navegador.

Términos relacionados

Para profundizar