Búsqueda con IA

Búsqueda semántica (semantic search)

También: semantic search, búsqueda por significado, búsqueda vectorial

La búsqueda semántica recupera resultados por significado y no por coincidencia exacta de palabras clave: convierte la consulta y los documentos en embeddings (vectores numéricos) y los ordena según lo cerca que quedan esos vectores en ese espacio, de modo que una página puede responder a una pregunta aunque no comparta ninguna palabra con ella.

El buscador clásico por palabras clave contaba coincidencias de términos: una página posicionaba porque repetía las palabras buscadas. La búsqueda semántica mide en cambio la similitud conceptual, así que una consulta como "zapatillas que aguanten el trail running" puede sacar a flote un producto descrito como "calzado resistente para terreno irregular" sin compartir ni un término. El cambio ocurre porque tanto la consulta como el documento se convierten en embeddings, vectores que codifican el significado, y el sistema ordena por la distancia entre ellos. Por eso saturar una página con palabras clave ha perdido su fuerza: repetir frases mueve poco el vector, mientras que una redacción clara y específica que enuncie el concepto sin rodeos tiende a quedar más cerca de las consultas que importan.

La lección práctica es escribir como lo preguntaría de verdad un cliente y definir el tema en lenguaje directo cerca del inicio del contenido, en lugar de enterrarlo. La concreción ayuda a que el embedding cargue significado real: "resistente al agua hasta 50 metros" queda más cerca de la pregunta de quien nada que "ideal para el agua", porque nombra un atributo concreto que el modelo puede ubicar. Las frases vagas y promocionales tienden a derivar hacia el centro del espacio, cerca de todo y cerca de nada.

Piensa en una tienda de Shopify que vende utensilios de cocina de hierro fundido. Un comprador le pregunta a un asistente: "¿qué sartén puedo pasar directo del fuego al horno sin que se deforme?". La página de producto nunca usa esas palabras. Sí dice "sartén curada por completo, apta para horno hasta 260 grados, construcción de una sola pieza sin mango de plástico". Con el buscador por palabras clave esas formulaciones podrían no encontrarse nunca. Con la búsqueda semántica quedan cerca, porque apta para horno, una sola pieza y sin mango de plástico codifican en conjunto el concepto de pasar del fuego al horno sin riesgo. La tienda gana la coincidencia describiendo el atributo con honestidad, no adivinando la consulta exacta. La misma lógica vale para las reseñas: un cliente que escribe "la dejé en el horno a 220 grados durante una hora y mantuvo su forma" refuerza el concepto en un lenguaje que ningún equipo de marketing escribiría, y eso es parte de por qué el texto genuino de las reseñas es materia prima útil para la recuperación.

La recuperación semántica también sostiene la mayoría de las respuestas con IA. Cuando ChatGPT, Perplexity o Google AI Overviews reúnen fuentes antes de responder, suelen recuperar por similitud de embeddings y no por palabras clave literales, y luego resumen lo que encuentran. Por eso una redacción que nombra los atributos con claridad le resulta más fácil de recuperar y citar a estos sistemas. Una advertencia que conviene dejar clara: similitud no es exactitud. Una página puede recuperarse por estar próxima al tema y aun así estar equivocada, y esa es una razón por la que los motores de respuesta se apoyan en la corroboración entre fuentes independientes, y por la que las descripciones de producto consistentes y veraces tienden a citarse más a menudo que las ingeniosas.