llms.txt: cos'è, cosa metterci e se ti serve davvero

llms.txt è un file di testo proposto, posizionato nella root di un sito, che fornisce ai modelli linguistici di grandi dimensioni un indice curato e in formato markdown dei contenuti più importanti del sito. Esiste perché le finestre di contesto sono troppo piccole per ingerire un sito reale, e perché HTML, pubblicità e JavaScript rendono la maggior parte delle pagine difficili da interpretare per un LLM.

La proposta è recente. Jeremy Howard di Answer.AI l'ha pubblicata a settembre 2024. La specifica vive su llmstxt.org. Nel 2026 l'adozione è moderata e disomogenea. Meno dell'11% dei domini in un campione di 300.000 siti ha il file (Search Engine Journal, 2025), e lo stesso dataset non mostra alcun incremento misurabile nelle citazioni dovuto al solo file. La risposta onesta a "ne ho bisogno?" è più sfumata di quanto suggeriscano i titoli del marketing.

La versione in 30 secondi

Metti un /llms.txt nella root del sito. Rendilo un file markdown con un H1, una blockquote di sintesi e poche sezioni H2 che linkano alle pagine canoniche e ricche di contenuto che vuoi far leggere a un LLM. Opzionalmente pubblica un /llms-full.txt di pari livello con il testo integrale di quelle pagine impacchettato. Tutto qui. Non c'è validatore di schema, non c'è invio a Google, non c'è penalità per averlo saltato.

Perché esiste la proposta

Le finestre di contesto sono finite. Anche un modello di frontiera con un milione di token non può ingerire l'HTML renderizzato di un sito marketing, di un portale di documentazione e di un blog, e ragionarci sopra in modo pulito. Ogni byte speso in navigazione, JavaScript, banner cookie e tracker è un byte non speso sul contenuto vero che il modello deve usare per rispondere.

Il file robots.txt ha risolto un problema simile nel 1994 dando ai crawler una singola istruzione di permesso o blocco. Il sitemap.xml l'ha esteso nel 2005 dando ai crawler un elenco di URL canonici. Nessuno dei due dice a un modello di cosa parla il sito o quali pagine contano di più. È questo il gap che llms.txt prova a chiudere.

Cosa va dentro al file

Il formato è volutamente stretto. Un llms.txt valido ha quattro parti:

Un H1 con il nome del sito o del progetto.
Una blockquote che sintetizza il sito in 1-3 frasi.
Prosa opzionale che dà contesto extra: chi è il pubblico, come è organizzato il sito, che tono dovrebbe usare l'LLM riassumendolo.
Una o più sezioni H2, ciascuna con una lista markdown puntata di link. Ogni link segue la forma - [Testo del link](https://url-completo): descrizione di una frase.

La convenzione è raggruppare le sezioni per intento: una "Docs", una "Blog", una "Pricing", a volte una "Optional" che l'LLM può saltare se il contesto è stretto. I link devono essere URL assoluti. Le descrizioni vanno corte, fattuali, scansionabili, la stessa forma di uno snippet di ricerca.

llms.txt e llms-full.txt

Due file, due lavori. llms.txt è il catalogo, un indice sottile che punta ad altre URL che l'LLM può recuperare a richiesta. llms-full.txt è il bundle, il testo markdown integrale di quelle pagine concatenato in un singolo file che un LLM può ingerire in una sola richiesta.

Anthropic li pubblica entrambi. Il loro llms.txt è piccolo e si collega all'albero della documentazione. Il loro llms-full.txt contiene la documentazione API completa in markdown, centinaia di migliaia di token. Vercel e Cloudflare seguono lo stesso schema.

La separazione esiste perché far spendere a un LLM token per recuperare ogni pagina linkata è uno spreco quando lo stesso contenuto può essere servito già impacchettato. Se il sito è piccolo, basta llms.txt. Se pubblichi documentazione seria o un corpus di contenuti che vuoi davvero veder citato, il vero vantaggio in citazioni vive in llms-full.txt.

Sposta davvero le citazioni AI

Questa è la domanda che i post di marketing schivano. La risposta onesta nel 2026: i dati non supportano la frase a effetto.

SE Ranking ha analizzato circa 300.000 domini e non ha trovato relazione statistica tra avere un file llms.txt e la frequenza di citazione nelle risposte dei principali LLM. OtterlyAI ha tracciato 10 siti per 90 giorni e non ha visto alcun cambiamento nel traffico AI su 8 di essi. Google ha confermato che AI Overviews e AI Mode si basano su segnali SEO tradizionali, non su llms.txt. Nei log di OtterlyAI, solo lo 0,1% delle richieste dei crawler AI ha toccato il file.

Questo non significa che il file sia inutile. Significa che non sostituisce il resto del playbook GEO. Se le pagine non sono già fattuali, dense di citazioni e strutturate per l'estrazione, un indice llms.txt che le punta non alza il loro tasso di citazione. Le leve che spostano davvero il dato le abbiamo coperte nella nostra analisi delle best practice GEO.

Quando vale comunque la pena pubblicarlo

Tre casi in cui llms.txt si guadagna il posto anche senza un lift di citazioni dimostrato.

Prodotti carichi di documentazione. Se gli utenti incollano abitualmente l'URL della tua docs in ChatGPT o Claude per chiedere "come funziona questa API", un llms-full.txt ben strutturato rende quelle risposte più accurate. Il guadagno è meno carico sul supporto, non citazioni grezze. È il motivo per cui Anthropic, Vercel e Cloudflare lo pubblicano.

Siti content-first. Blog, testate giornalistiche, knowledge base. Il costo è un file. Il rovescio è zero. Il vantaggio, se e quando i motori AI inizieranno a rispettare lo standard, è già pronto.

Chiarezza su compliance e policy. Diversi grandi editori usano llms.txt come segnale pubblico su quali contenuti sono ammessi per il training AI e quali no, in coppia con le regole robots.txt per i crawler AI. Utile quando il legale chiede dove è pubblicata la policy.

Quando saltarlo

Le landing page di marketing e i siti vetrina corti non ne hanno bisogno. Il file si ridurrebbe a "ecco la nostra homepage e la pagina prezzi", cose che un LLM legge dall'HTML in 200 token. I siti monopagina, i flussi transazionali e le app senza superficie pubblica di lettura non hanno nulla da indicizzare.

File limitrofi: come si incastra llms.txt

Tre file di testo abitano oggi la root di un sito, ciascuno risolve un problema diverso.

robots.txt dice ai crawler dove possono andare. È normativo: allow e disallow.
sitemap.xml dice ai crawler quali URL esistono. È di scoperta: una lista piatta.
llms.txt dice agli LLM quali URL contano e di cosa parlano. È editoriale: un indice curato con prosa.

Nessuno sostituisce gli altri. Un setup completo li include tutti e tre, più i dati strutturati (JSON-LD) dentro l'HTML di ogni pagina. Lo schema markup resta il segnale più forte sia per la search classica sia per i motori AI, indipendentemente da dove llms.txt finirà come standard. Il quadro più ampio è dentro la nostra spiegazione di GEO vs SEO.

Implementazione pratica

Aggiungi un file statico in public/llms.txt nel progetto Next.js, oppure servilo da un route handler se preferisci generarlo dal CMS. Tienilo sotto qualche centinaio di righe perché un modello possa leggerlo senza sforare il contesto. Aggiornalo quando pubblichi contenuti nuovi e sostanziali. Manda il sitemap.xml a Google Search Console e Bing come al solito; llms.txt non ha equivalente di invio, perché nessun grande motore AI ne ha costruito uno.

Se vuoi la versione impacchettata, genera llms-full.txt a build time partendo dal markdown pubblicato. Un tipico sito di contenuti Next.js lo fa con uno script di build che attraversa l'albero dei contenuti e concatena il corpo di ogni pagina pubblicata con un H1 in apertura e una riga di URL canonico.

In sintesi

llms.txt è a basso costo, basso rischio, e non è ancora una leva di visibilità misurabile. Pubblicalo se il sito ha contenuti da leggere che valga la pena indicizzare. Trattalo come table stakes per la documentazione. Non trattarlo come sostituto del lavoro più duro: contenuti accurati, schema markup, citazioni piazzate al sito della pretesa, e i primi 200 token di ogni pagina che fanno lavoro vero.

Lo standard può crescere. Finché non lo fa, il file è un gesto cortese verso un futuro in cui gli LLM leggono il web alle condizioni del web stesso.

Foto di Susan Wilkinson ↗ su Unsplash ↗

Studio