llms.txt: qué es, qué poner dentro y si lo necesitas

llms.txt es un archivo de texto plano propuesto, ubicado en la raíz del sitio, que entrega a los grandes modelos de lenguaje un índice curado y en formato markdown del contenido más importante del sitio. Existe porque las ventanas de contexto son demasiado pequeñas para ingerir un sitio web real y porque el HTML, los anuncios y el JavaScript hacen que la mayoría de las páginas sean difíciles de interpretar para un LLM.

La propuesta es reciente. Jeremy Howard, de Answer.AI, la publicó en septiembre de 2024. La especificación vive en llmstxt.org. En 2026 la adopción es moderada e irregular. Menos del 11% de los dominios en una muestra de 300.000 sitios tiene el archivo (Search Engine Journal, 2025), y el mismo dataset no muestra ningún aumento medible en citas atribuible al archivo en sí. La respuesta honesta a "¿lo necesito?" es más matizada de lo que sugieren los titulares de marketing.

La versión de 30 segundos

Pon un /llms.txt en la raíz del sitio. Hazlo un archivo markdown con un H1, una blockquote de resumen y unas pocas secciones H2 que enlacen a las páginas canónicas y ricas en contenido que quieres que un LLM lea. Opcionalmente publica un /llms-full.txt hermano con el texto completo de esas páginas empaquetado. Eso es todo. No hay validador de esquema, no hay paso de envío a Google, no hay penalización por omitirlo.

Por qué existe la propuesta

Las ventanas de contexto son finitas. Incluso un modelo frontera con un millón de tokens no puede ingerir el HTML renderizado de un sitio de marketing, un portal de documentación y un blog, y razonar limpiamente sobre todo. Cada byte gastado en navegación, JavaScript, banners de cookies y trackers es un byte que no se gasta en el contenido real que el modelo necesita para responder.

El archivo robots.txt resolvió un problema parecido en 1994 dándole a los rastreadores una sola instrucción de permitir o denegar. El sitemap.xml lo extendió en 2005 dándole a los rastreadores una lista descubrible de URL canónicas. Ninguno le dice a un modelo de qué trata tu sitio ni qué páginas importan más. Esa es la brecha que llms.txt intenta cerrar.

Qué va dentro del archivo

El formato es deliberadamente estrecho. Un llms.txt válido tiene cuatro partes:

Un H1 con el nombre del sitio o del proyecto.
Una blockquote que resume el sitio en 1 a 3 frases.
Prosa opcional que aporta contexto extra: quién es la audiencia, cómo está organizado el sitio, qué tono debería adoptar el LLM al resumirlo.
Una o más secciones H2, cada una con una lista markdown de enlaces. Cada enlace sigue la forma - [Texto del enlace](https://url-completa): descripción de una frase.

La convención es agrupar las secciones por intención: una "Docs", una "Blog", una "Pricing", a veces una "Optional" que el LLM puede saltarse si el contexto es ajustado. Los enlaces deben ser URL absolutas. Las descripciones, cortas, factuales, escaneables, la misma forma que un snippet de búsqueda.

llms.txt y llms-full.txt

Dos archivos, dos trabajos. llms.txt es el catálogo, un índice fino que apunta a otras URL que el LLM puede recuperar bajo demanda. llms-full.txt es el bundle, el texto markdown completo de esas páginas concatenado en un solo archivo que un LLM puede ingerir de una sola petición.

Anthropic publica los dos. Su llms.txt es pequeño y enlaza al árbol de documentación. Su llms-full.txt incluye la documentación de la API completa en markdown, cientos de miles de tokens. Vercel y Cloudflare siguen el mismo patrón.

La separación existe porque hacer que un LLM gaste tokens recuperando cada página enlazada es un desperdicio cuando el mismo contenido puede servirse ya empaquetado. Si tu sitio es pequeño, basta con llms.txt. Si publicas documentación seria o un corpus de contenido que de verdad quieres ver citado, el verdadero beneficio en citas vive en llms-full.txt.

¿Mueve realmente las citas de IA?

Esta es la pregunta que los posts de marketing esquivan. La respuesta honesta en 2026: los datos no respaldan la afirmación principal.

SE Ranking analizó cerca de 300.000 dominios y no encontró relación estadística entre tener un archivo llms.txt y la frecuencia de cita en las respuestas de los principales LLM. OtterlyAI rastreó 10 sitios durante 90 días y no vio cambios en el tráfico de IA en 8 de ellos. Google ha confirmado que AI Overviews y AI Mode se apoyan en señales SEO tradicionales, no en llms.txt. En los logs de OtterlyAI, solo el 0,1% de las peticiones de rastreadores de IA tocaron el archivo.

Eso no significa que el archivo sea inútil. Significa que no sustituye al resto del playbook GEO. Si tus páginas no son ya factuales, densas en citas y estructuradas para la extracción, un índice llms.txt que apunte hacia ellas no levantará su tasa de cita. Las palancas que sí mueven la aguja las cubrimos en nuestro análisis de buenas prácticas GEO.

Cuándo vale la pena igualmente

Tres casos en los que llms.txt se gana su sitio incluso sin lift de citas demostrado.

Productos cargados de documentación. Si tus usuarios pegan habitualmente la URL de tu docs en ChatGPT o Claude para preguntar "cómo funciona esta API", un llms-full.txt bien estructurado hace esas respuestas más precisas. La ganancia es menos carga de soporte, no citas brutas. Por eso Anthropic, Vercel y Cloudflare publican uno.

Sitios content-first. Blogs, medios, bases de conocimiento. El coste es un archivo. La desventaja es cero. La ventaja, si y cuando los motores de IA empiecen a respetar el estándar, ya está colocada.

Claridad de cumplimiento y política. Varias editoriales grandes usan llms.txt como señal pública de qué contenido se permite para entrenamiento de IA y cuál no, complementando las reglas de robots.txt para rastreadores de IA. Útil cuando el equipo legal pregunta dónde está publicada la política.

Cuándo saltárselo

Las landing pages de marketing y los sitios escaparate cortos no lo necesitan. El archivo se reduciría a "aquí está nuestra homepage y la página de precios", cosas que un LLM lee desde el HTML en 200 tokens. Los sitios de una página, los flujos transaccionales y las apps sin superficie pública de lectura no tienen nada que indexar.

Archivos vecinos: dónde encaja llms.txt

Tres archivos de texto plano comparten hoy la raíz del sitio, cada uno resuelve un problema distinto.

robots.txt dice a los rastreadores adónde pueden ir. Es normativo: permitir y denegar.
sitemap.xml dice a los rastreadores qué URL existen. Es de descubrimiento: una lista plana.
llms.txt dice a los LLM qué URL importan y de qué tratan. Es editorial: un índice curado con prosa.

Ninguno sustituye a los otros. Un setup completo incluye los tres, más datos estructurados (JSON-LD) dentro del HTML de cada página. El schema markup sigue siendo la señal más fuerte tanto para la búsqueda clásica como para los motores de IA, independientemente de dónde aterrice llms.txt como estándar. El cuadro completo está en nuestra explicación de GEO vs SEO.

Implementación práctica

Añade un archivo estático en public/llms.txt en tu proyecto Next.js, o sírvelo con un route handler si prefieres generarlo desde tu CMS. Mantenlo por debajo de unos cientos de líneas para que un modelo lo pueda leer sin desbordar el contexto. Actualízalo cuando publiques contenido nuevo significativo. Envía tu sitemap.xml a Google Search Console y Bing como siempre; llms.txt no tiene paso de envío equivalente, ya que ningún motor de IA importante ha construido uno.

Si quieres la versión empaquetada, genera llms-full.txt en build time a partir del markdown publicado. Un sitio de contenidos típico en Next.js lo hace con un script de build que recorre el árbol de contenidos y concatena el cuerpo de cada página publicada con un H1 inicial y una línea de URL canónica.

Conclusión

llms.txt es de bajo coste, bajo riesgo y todavía no es una palanca de visibilidad medible. Publícalo si tu sitio tiene contenido de lectura que merezca indexarse. Trátalo como table stakes para documentación. No lo trates como sustituto del trabajo más duro: contenido factualmente preciso, schema markup, citas colocadas en el sitio de la afirmación, y los primeros 200 tokens de cada página haciendo trabajo real.

El estándar puede crecer. Hasta entonces, el archivo es un gesto cortés hacia un futuro en el que los LLM leen la web bajo las condiciones de la propia web.

Foto de Susan Wilkinson ↗ en Unsplash ↗

Studio