Cos'è il file llms.txt e a cosa serve?

llms.txt è un file markdown posizionato alla root del dominio che guida i Large Language Models verso i contenuti più rilevanti del sito. A differenza di robots.txt che controlla l'accesso, llms.txt funziona come una mappa curata che indica ai LLM quali pagine contengono le informazioni più importanti.

Quali AI crawler devo configurare nel robots.txt?

I principali AI crawler da configurare sono: GPTBot, ChatGPT-User e OAI-SearchBot (OpenAI), ClaudeBot e anthropic-ai (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google AI), Meta-ExternalAgent (Meta), Amazonbot e CCBot (Common Crawl). La configurazione dipende dalla strategia: accesso completo, solo search, o blocco training.

Qual è la lunghezza ideale per i contenuti ottimizzati per LLM?

La lunghezza ottimale per blocchi citabili (answer blocks) è 134-167 parole. Per risposte FAQ dirette: 40-60 parole. I paragrafi modulari dovrebbero essere di 75-300 parole. Contenuti con summary box all'inizio hanno il 28-40% in più di probabilità di citazione.

Da SEO a GEO: Guida Tecnica all'Ottimizzazione per AI…

Q: Qual è la differenza tra SEO e GEO?

SEO ottimizza per posizionarsi nelle liste di risultati dei motori di ricerca tradizionali. GEO (Generative Engine Optimization) ottimizza per essere citati nelle risposte sintetizzate dai motori generativi come ChatGPT, Perplexity e Gemini. Il cambiamento fondamentale riguarda l'obiettivo: dal ranking alla citazione.

Q: llms.txt sostituisce robots.txt?

No, llms.txt e robots.txt hanno funzioni complementari. robots.txt controlla l'accesso dei crawler al sito. llms.txt guida i LLM verso contenuti prioritari. Entrambi sono necessari per una strategia GEO completa.

Q: Come influisce l'E-E-A-T sulla visibilità AI?

L'E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) è cruciale per GEO. Il 96% dei contenuti in AI Overview proviene da fonti con autori verificati. Contenuti con author bio dettagliate hanno il 73% in più di probabilità di essere selezionati. Lo schema Person deve includere credenziali, affiliazioni e competenze specifiche verificabili.

Il cambio di paradigma: dai link alle citazioni

GPTBot è passato dal 5% al 30% del traffico crawler in un anno. Il traffico generato da query utente verso AI è cresciuto 15 volte. L’infrastruttura SEO tradizionale non intercetta più questo flusso.

TL;DR: L’ottimizzazione per motori generativi (GEO) richiede interventi tecnici specifici: configurare robots.txt per 20+ AI crawler, implementare llms.txt per guidare LLM verso contenuti prioritari, estendere structured data con JSON-LD incluso Person schema con E-E-A-T completo (73% in più di selezione). Strutturare contenuti in answer blocks di 134-167 parole per facilitare l’estrazione. Contenuti multimodali hanno +156% selection rate. La ricerca Princeton dimostra che aggiungere citazioni da fonti autorevoli aumenta la visibilità fino al 40%. Chi implementa ora costruisce vantaggi competitivi difficili da recuperare.

Il SEO tradizionale ottimizza per un obiettivo specifico: posizionarsi nelle liste ordinate restituite dai motori di ricerca. L’utente cerca, riceve dieci link blu, clicca. Il traffico arriva.

I motori generativi funzionano diversamente. ChatGPT, Perplexity, Gemini, Claude non restituiscono liste di link. Sintetizzano risposte attingendo da fonti multiple, citando (o meno) la provenienza. L’utente ottiene una risposta, non un elenco di opzioni.

Secondo i dati Cloudflare di dicembre 2025, GPTBot ha raggiunto il 30% del traffico AI crawler, in crescita dal 5% dell’anno precedente. Meta-ExternalAgent è entrato al 19%. ChatGPT-User, il bot che accede a pagine web quando gli utenti fanno domande, ha registrato una crescita del 2.825%. Il traffico legato a query utente è aumentato di 15 volte nel corso dell’anno.

Non è un cambiamento marginale. È un nuovo canale di acquisizione che richiede infrastruttura dedicata.

robots.txt: configurazione per AI crawler

Il file robots.txt comunica ai crawler quali parti del sito possono accedere. Per i motori di ricerca tradizionali, la configurazione è consolidata. Per gli AI crawler, il panorama è frammentato: ogni provider usa user-agent diversi, con scopi diversi.

Mappa degli AI crawler principali

OpenAI opera con tre crawler distinti:

User-agent: GPTBot
# Training modelli fondazionali. Raccoglie dati per addestrare GPT.

User-agent: ChatGPT-User  
# Browsing utente. Accede a pagine quando un utente chiede informazioni.

User-agent: OAI-SearchBot
# Search. Indicizza contenuti per la funzione di ricerca di ChatGPT.

Anthropic usa:

User-agent: ClaudeBot
# Training e aggiornamento Claude.

User-agent: Claude-Web
# Accesso web per funzionalità utente.

User-agent: anthropic-ai
# Crawler generico Anthropic.

Perplexity:

User-agent: PerplexityBot
# Indicizzazione per AI answer engine.

User-agent: Perplexity-User
# Fetch per query utente.

Google ha separato le funzioni:

User-agent: Google-Extended
# Token per uso AI. NON è un bot, è un flag.
# Controllare questo user-agent impedisce uso dei contenuti per training AI
# mantenendo l'indicizzazione standard.

User-agent: Googlebot
# Crawler tradizionale per Search.

Meta:

User-agent: Meta-ExternalAgent
# Crawling per training modelli AI.

User-agent: Meta-ExternalFetcher
# Fetch per richieste utente. Può bypassare robots.txt.

Altri crawler rilevanti:

User-agent: Amazonbot
User-agent: Bytespider      # ByteDance
User-agent: Applebot-Extended  # Apple AI (flag, non bot)
User-agent: CCBot           # Common Crawl
User-agent: cohere-ai
User-agent: cohere-training-data-crawler

Strategie di configurazione

Strategia 1: Accesso completo per massima visibilità AI

# Permettere tutti gli AI crawler
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

User-agent: Amazonbot
Allow: /

Strategia 2: Visibilità AI search, no training

Questa configurazione permette ai sistemi AI di citare i contenuti nelle risposte, ma impedisce l’uso per addestrare modelli:

# Permettere crawler search/user
User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Bloccare crawler training
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: cohere-training-data-crawler
Disallow: /

Strategia 3: Accesso selettivo per directory

User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /api/
Disallow: /internal/
Disallow: /user-data/

Limiti di robots.txt

Un punto critico: robots.txt è un protocollo volontario. I crawler possono ignorarlo.

Ad agosto 2025, Cloudflare ha bloccato i bot di Perplexity dopo aver documentato violazioni del protocollo. A ottobre 2025, Reddit ha intrappolato deliberatamente i crawler Perplexity, dimostrando che aggiravano le restrizioni tramite strumenti di terze parti. Ne è seguita una causa legale.

La conseguenza operativa: robots.txt da solo non basta. Per enforcement reale, servono verifiche IP, regole WAF, o blocchi a livello CDN. Cloudflare riporta che oltre 2.5 milioni di siti usano la sua funzione di managed robots.txt per bloccare AI training.

llms.txt: il nuovo standard per guidare i LLM

A settembre 2024, Jeremy Howard di Answer AI ha proposto llms.txt, un nuovo file standard per comunicare con i Large Language Models. A differenza di robots.txt, che controlla l’accesso, llms.txt guida i modelli verso i contenuti più rilevanti.

Cosa fa llms.txt

Il file llms.txt è un documento markdown posizionato alla root del dominio (/llms.txt). Funziona come una mappa curata che indica ai LLM quali pagine contengono le informazioni più importanti e come interpretarle.

Non è un meccanismo di blocco. È un sistema di raccomandazione, come un bibliotecario che guida un visitatore verso gli scaffali giusti invece di lasciarlo vagare.

Struttura del file

# example.com

> Sito tecnico su implementazioni AI per enterprise. 
> Contenuti verificati, aggiornati mensilmente.

## Documentazione Core

- [Guida RAG Produzione](https://example.com/docs/rag-production): 
  Architetture RAG testate in produzione, pattern di chunking, 
  metriche di valutazione. Aggiornato Q4 2024.

- [API Reference](https://example.com/docs/api): 
  Documentazione completa delle API REST. Include esempi 
  di codice Python e cURL.

## Articoli Tecnici

- [Ottimizzazione Latenza LLM](https://example.com/blog/llm-latency): 
  Strategie per ridurre latenza p95 sotto 200ms. 
  Include benchmark su Claude, GPT-4, Mistral.

- [Cost Management AI](https://example.com/blog/ai-costs): 
  Framework per stimare e ottimizzare costi inference. 
  Dati reali da deployment enterprise.

## Risorse

- [Glossario AI](https://example.com/glossario): 
  Definizioni tecniche di 150+ termini AI/ML.

llms-full.txt: versione estesa

Oltre a llms.txt, lo standard prevede un file opzionale llms-full.txt che contiene il contenuto completo del sito in formato flattened. Rimuove HTML, CSS, JavaScript non essenziali e presenta solo il testo. Alcuni siti generano file da 100K+ parole.

Il vantaggio: permette ai LLM di processare l’intero sito in un singolo context. Il limite: supera facilmente la context window della maggior parte dei modelli.

Stato di adozione

A gennaio 2025, OpenAI, Google e Anthropic non supportano nativamente llms.txt. I loro crawler non leggono automaticamente il file.

L’adozione attuale è concentrata in nicchie specifiche:

Documentazione tecnica: Mintlify ha integrato llms.txt a novembre 2024. I siti di documentazione di Anthropic, Cursor, Cloudflare, Vercel lo usano.
Directory dedicate: directory.llmstxt.cloud e llmstxt.site catalogano i siti con implementazione.
Uso manuale: Sviluppatori che uploadano il file direttamente a ChatGPT o Claude per dare contesto.

È un investimento di future-proofing. Quando i major provider adotteranno lo standard, chi ha già implementato avrà vantaggio.

Implementazione

Creare /llms.txt alla root del dominio
Formato UTF-8, markdown pulito
Includere solo pagine indexabili (no noindex, no blocked in robots.txt)
Aggiungere descrizioni concise ma informative per ogni URL
Opzionale: riferimento in robots.txt con # LLM-policy: /llms.txt

Differenze con altri file standard

Confronto tra file standard per crawler web e AI
File	Scopo	Target	Formato
robots.txt	Controllo accesso crawler	Search engines, AI crawler	Plain text, direttive
sitemap.xml	Catalogo completo pagine	Search engines	XML
llms.txt	Mappa curata contenuti prioritari	LLM	Markdown
humans.txt	Crediti team	Umani	Plain text

Structured Data e JSON-LD per AI

Lo structured data non è una novità. È standard SEO dal 2011. Ma il suo ruolo cambia nel contesto dei motori generativi.

Perché lo Structured Data conta per AI

I LLM processano tutto come token. Non distinguono nativamente tra un prezzo, un nome, una data. Lo structured data fornisce un layer semantico esplicito che disambigua il contenuto.

Un articolo con markup JSON-LD comunica in modo machine-readable: questo è l’autore, questa è la data di pubblicazione, questa è l’organizzazione editrice, queste sono le fonti citate. Il modello non deve inferire questa struttura dal testo.

Implementazione JSON-LD base

JSON-LD (JavaScript Object Notation for Linked Data) è il formato preferito. Si inserisce in un tag <script> senza mescolarsi con l’HTML del contenuto:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "TechArticle",
  "@id": "https://example.com/rag-production-guide",
  "headline": "RAG in Produzione: Pattern e Anti-Pattern",
  "description": "Guida tecnica all'implementazione RAG enterprise con metriche reali",
  "author": {
    "@type": "Person",
    "name": "Nome Autore",
    "url": "https://example.com/team/nome-autore",
    "jobTitle": "AI Team Leader",
    "knowsAbout": ["RAG", "LLM", "Vector Databases", "AI Engineering"]
  },
  "datePublished": "2025-01-04",
  "dateModified": "2025-01-04",
  "publisher": {
    "@type": "Organization",
    "name": "Example.com",
    "url": "https://example.com",
    "logo": {
      "@type": "ImageObject",
      "url": "https://example.com/logo.png"
    }
  },
  "mainEntityOfPage": {
    "@type": "WebPage",
    "@id": "https://example.com/rag-production-guide"
  },
  "articleSection": "Engineering",
  "keywords": ["RAG", "Production", "Enterprise AI", "Vector Search"],
  "wordCount": 3500,
  "inLanguage": "it"
}
</script>

Schema types prioritari per AI visibility

Article / TechArticle / NewsArticle

Per contenuti editoriali. TechArticle per documentazione tecnica.

FAQPage

Struttura Q&A che i motori generativi possono estrarre direttamente:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "Qual è la differenza tra SEO e GEO?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "SEO ottimizza per liste di risultati dei motori di ricerca tradizionali. GEO ottimizza per essere citati nelle risposte sintetizzate dai motori generativi come ChatGPT e Perplexity."
      }
    },
    {
      "@type": "Question", 
      "name": "llms.txt sostituisce robots.txt?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "No. robots.txt controlla l'accesso dei crawler. llms.txt guida i LLM verso contenuti prioritari. Hanno funzioni complementari."
      }
    }
  ]
}
</script>

HowTo

Per guide step-by-step:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "HowTo",
  "name": "Come configurare robots.txt per AI crawler",
  "step": [
    {
      "@type": "HowToStep",
      "position": 1,
      "name": "Identificare AI crawler target",
      "text": "Mappare gli user-agent dei crawler AI che vuoi permettere o bloccare."
    },
    {
      "@type": "HowToStep",
      "position": 2,
      "name": "Definire strategia di accesso",
      "text": "Decidere se permettere training, solo search, o bloccare completamente."
    },
    {
      "@type": "HowToStep",
      "position": 3,
      "name": "Implementare direttive",
      "text": "Aggiungere le regole User-agent e Allow/Disallow al file robots.txt."
    }
  ]
}
</script>

Organization e Person: E-E-A-T per AI

E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) non è più solo un framework Google. I dati mostrano che i LLM verificano le credenziali autore prima di citare: il 96% dei contenuti in AI Overview proviene da fonti con autori verificati. Contenuti con author bio dettagliate hanno il 73% in più di probabilità di essere selezionati.

Lo schema Person deve andare oltre il nome. Serve comunicare credenziali, affiliazioni, competenze specifiche:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Person",
  "name": "Mario Rossi",
  "url": "https://example.com/team/mario-rossi",
  "image": "https://example.com/images/mario-rossi.jpg",
  "jobTitle": "Senior AI Engineer",
  "description": "10+ anni di esperienza in ML/AI, specializzato in sistemi RAG enterprise",
  "worksFor": {
    "@type": "Organization",
    "name": "TechCorp Italia",
    "url": "https://techcorp.it"
  },
  "alumniOf": {
    "@type": "CollegeOrUniversity",
    "name": "Politecnico di Milano"
  },
  "hasCredential": [
    {
      "@type": "EducationalOccupationalCredential",
      "credentialCategory": "certification",
      "name": "AWS Machine Learning Specialty"
    },
    {
      "@type": "EducationalOccupationalCredential",
      "credentialCategory": "certification", 
      "name": "Google Cloud Professional ML Engineer"
    }
  ],
  "knowsAbout": [
    "Retrieval-Augmented Generation",
    "Large Language Models",
    "Vector Databases",
    "MLOps",
    "AI Engineering"
  ],
  "sameAs": [
    "https://linkedin.com/in/mariorossi",
    "https://github.com/mariorossi",
    "https://scholar.google.com/citations?user=xxx"
  ]
}
</script>

Checklist E-E-A-T per schema Person:

description con anni di esperienza e specializzazione
hasCredential per certificazioni verificabili
knowsAbout con topic specifici (non generici)
sameAs con link a profili verificabili (LinkedIn, GitHub, Google Scholar)
alumniOf per affiliazioni accademiche
worksFor con URL organizzazione

Citation schema

Per contenuti che citano fonti esterne, lo schema Citation aggiunge contesto:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Analisi Paper GEO Princeton",
  "citation": [
    {
      "@type": "ScholarlyArticle",
      "name": "GEO: Generative Engine Optimization",
      "author": ["Pranjal Aggarwal", "et al."],
      "datePublished": "2024",
      "publisher": {
        "@type": "Organization",
        "name": "Princeton University"
      },
      "url": "https://arxiv.org/abs/2311.09735"
    }
  ]
}
</script>

ImageObject e VideoObject per contenuti multimodali

I contenuti multimodali hanno il 156% in più di probabilità di essere selezionati in AI Overview rispetto ai contenuti solo testo. Gemini e Perplexity investono pesantemente nella multimodal search. Lo schema per media diventa rilevante:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "ImageObject",
  "contentUrl": "https://example.com/images/architettura-rag.png",
  "name": "Architettura sistema RAG enterprise",
  "description": "Schema architetturale che mostra il flusso dati tra vector store, retriever e LLM in un sistema RAG di produzione",
  "author": {
    "@type": "Person",
    "name": "Mario Rossi"
  },
  "datePublished": "2025-01-04",
  "encodingFormat": "image/png"
}
</script>

Per video con trascrizione:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "VideoObject",
  "name": "Deploy RAG in produzione: walkthrough",
  "description": "Video tutorial su deployment di sistema RAG su AWS con monitoring",
  "thumbnailUrl": "https://example.com/video/rag-deploy-thumb.jpg",
  "uploadDate": "2025-01-04",
  "duration": "PT12M30S",
  "transcript": "https://example.com/video/rag-deploy-transcript.txt",
  "author": {
    "@type": "Person",
    "name": "Mario Rossi"
  }
}
</script>

Best practice per media AI-friendly:

Alt text descrittivo e contestuale (non “image1.png”)
Didascalie che spiegano il contenuto, non solo lo descrivono
Trascrizioni per tutti i video
Caption che contestualizzano la figura nel testo circostante

Impatto reale sugli AI search

John Mueller di Google ha chiarito a gennaio 2025 che lo structured data non è un fattore di ranking diretto. Ma l’impatto indiretto è documentato:

Rich snippets da structured data aumentano il CTR del 30% secondo BrightEdge
Il 72% dei siti in prima pagina Google usa schema markup
AI Overviews di Google elaborano structured data per costruire risposte

Lo structured data non garantisce citazioni nei motori generativi. Ma fornisce il contesto semantico che facilita l’interpretazione corretta del contenuto.

Requisiti tecnici per AI crawler

Oltre allo structured data, ci sono requisiti tecnici che influenzano la capacità dei LLM di processare e citare i contenuti.

Static HTML vs JavaScript rendering

Gli AI crawler hanno difficoltà con contenuti renderizzati via JavaScript. A differenza di Googlebot, che esegue JS, molti crawler AI preferiscono o richiedono HTML statico.

Regole operative:

Contenuto critico deve essere presente nell’HTML statico, non generato dinamicamente
Evitare contenuti nascosti in tab, accordion, o caricati on-scroll
Se usi framework JS (React, Vue, Next.js), verificare che il SSR o SSG produca HTML completo
Test: visualizzare la pagina con JS disabilitato. Ciò che si vede è ciò che vedono i crawler AI base.

Content freshness signals

Il 23% dei contenuti selezionati in AI Overview ha meno di 30 giorni. Perplexity indicizza giornalmente. I segnali di freshness sono prioritari rispetto all’autorità storica.

Implementazione:

dateModified in schema deve riflettere aggiornamenti reali:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "TechArticle",
  "headline": "Guida RAG Produzione",
  "datePublished": "2024-06-15",
  "dateModified": "2025-01-04"
}
</script>

Checklist freshness:

Aggiornare dateModified solo per modifiche sostanziali (non typo fix)
Segnalare update prominentemente nel contenuto (“Aggiornato: Gennaio 2025”)
Review trimestrale contenuti evergreen
Aggiornare statistiche e dati almeno annualmente
Rimuovere o marcare come archivio contenuti obsoleti

Verifica citazioni e fact-checking

Gli AI eseguono cross-reference con fonti autorevoli in tempo reale. Contenuti con citazioni verificabili hanno l’89% in più di probabilità di selezione rispetto a contenuti con claim non supportati.

Regole:

Ogni statistica deve avere fonte linkata
“Secondo una ricerca” senza link = claim non verificabile = penalizzato
Preferire fonti primarie (paper, documentazione ufficiale) su fonti secondarie
Citazioni da Wikipedia, Statista, Pew Research, paper arXiv hanno peso maggiore

Strategie GEO: cosa dice la ricerca

Il paper “GEO: Generative Engine Optimization” di Princeton, Georgia Tech, Allen Institute e IIT Delhi è lo studio più rigoroso disponibile sull’ottimizzazione per motori generativi. Ha testato 9 tecniche su 10.000 query.

Le tre strategie più efficaci

1. Cite Sources: +40% visibilità

Aggiungere citazioni da fonti autorevoli è la strategia con il maggior impatto generale. Per siti con ranking basso nelle SERP tradizionali, l’effetto è ancora più marcato: +115% per siti in quinta posizione.

Non basta citare. La citazione deve essere da fonte riconosciuta, pertinente al claim, verificabile.

2. Quotation Addition

Incorporare citazioni dirette da esperti del settore aumenta autenticità e profondità percepita. Funziona particolarmente per contenuti opinion-based.

3. Statistics Addition

Dati quantitativi battono discussioni qualitative. “Il 42% dei progetti AI fallisce” ha più impatto di “molti progetti AI falliscono”. Funziona particolarmente per domini Legal e Government.

Strutturare contenuti per estrazione: Answer Blocks

I LLM non citano pagine intere. Estraggono blocchi specifici. Ottimizzare per questo pattern è critico.

Passage length ottimale: 134-167 parole per blocco citabile. Per risposte FAQ dirette: 40-60 parole. Contenuti con summary box all’inizio hanno il 28-40% in più di probabilità di citazione.

Implementazione pratica:

TL;DR all’inizio: Ogni articolo apre con un blocco di sintesi self-contained. Non è solo per lettori umani: è il blocco che i LLM estraggono preferenzialmente.
Sezioni self-contained: Ogni H2/H3 deve essere citabile indipendentemente dal resto. Un LLM deve poter estrarre quella sezione e avere una risposta completa.
Heading come domande: “Cos’è il RAG?” performa meglio di “RAG Overview”. Matching diretto con query conversazionali.
Paragrafi modulari: 75-300 parole per sezione. No wall of text. I blocchi modulari sono più facili da estrarre e citare.
Risposte dirette prima, contesto dopo: La risposta alla domanda implicita dell’heading deve apparire nelle prime 2-3 frasi. L’elaborazione viene dopo.

Esempio di struttura ottimizzata:

## Qual è la differenza tra SEO e GEO?

SEO ottimizza per posizionarsi nelle liste di risultati dei motori 
di ricerca tradizionali. GEO ottimizza per essere citati nelle 
risposte sintetizzate dai motori generativi come ChatGPT, Perplexity 
e Gemini. [40-60 parole di risposta diretta]

Il cambiamento fondamentale riguarda l'obiettivo: dal ranking alla 
citazione. Nel SEO classico, il successo è posizione 1 nelle SERP. 
In GEO, il successo è essere la fonte che l'AI cita quando risponde.
[Elaborazione e contesto]

Strategie domain-specific

Il paper ha scoperto che l’efficacia varia per dominio:

History: Tono autorevole e persuasivo
Facts: Citazioni da fonti primarie
Law/Government: Statistiche e dati quantitativi
Science/Health: Terminologia tecnica + autorevolezza

Ottimizzazione per piattaforma specifica

Ogni LLM ha preferenze diverse. Una strategia GEO efficace considera queste differenze:

Preferenze di ottimizzazione per piattaforme AI generative
Piattaforma	Preferenze principali	Ottimizzazione
ChatGPT	Wikipedia, brand popolari, contenuti consolidati	Authority building, presenza Wikipedia se applicabile
Perplexity	Reddit, contenuti recenti, real-time	Freshness prioritaria, engagement community
Gemini	Multimodal, ecosistema Google, schema markup	Video, immagini ottimizzate, structured data completo
Claude	Accuracy, contenuti bilanciati, attribuzione	Proper attribution, framing neutro ed evidence-based
Google AI Overview	Top 10 organic, E-E-A-T forte	SEO tradizionale + structured data esteso

Implicazioni operative:

ChatGPT cita Wikipedia nel 48% delle risposte. Per topic dove esiste una voce Wikipedia, la presenza lì pesa.
Perplexity preferisce Reddit (46.7% delle citazioni). Contenuti discussi in subreddit rilevanti hanno vantaggio.
Gemini integra immagini e video nelle risposte. Contenuti multimodali performano meglio.
Claude verifica accuracy più rigorosamente. Claim non supportati vengono scartati.

Cosa non funziona

Keyword stuffing: Aggiungere keyword dalla query al contenuto peggiora la visibilità del 10% rispetto al baseline. I motori generativi penalizzano l’over-optimization.

Persuasive language generico: Tono persuasivo senza sostanza non migliora il posizionamento.

Democratizzazione dei risultati

Un aspetto interessante: GEO livella il campo di gioco. I siti con ranking basso nelle SERP tradizionali beneficiano di più dalle ottimizzazioni GEO rispetto ai siti dominanti. Cite Sources porta +115% ai siti in quinta posizione e -30% ai siti in prima posizione.

Per piccoli editori e business indipendenti, è un’opportunità di competere con corporate giants senza budget SEO comparabili.

Checklist implementazione

robots.txt

Mappare tutti gli AI crawler rilevanti per il settore
Definire strategia: full access, search-only, selective
Implementare direttive per ogni user-agent
Verificare sintassi con Google Robots Testing Tool
Monitorare server logs per attività crawler
Verificare compliance effettiva (IP check per crawler sospetti)
Review trimestrale: nuovi crawler emergono regolarmente

llms.txt

Creare file markdown alla root del dominio
Includere descrizione del sito e tipo di contenuti
Organizzare URL per categoria/priorità
Aggiungere descrizioni concise per ogni link
Verificare che tutti gli URL siano indexabili
Considerare llms-full.txt per siti con documentazione estesa
Aggiornare quando nuovi contenuti prioritari vengono pubblicati

Structured Data / JSON-LD

Contenuto GEO-optimized

Requisiti tecnici

Contenuto critico in HTML statico (non solo JS-rendered)
No contenuti nascosti in tab/accordion/lazy-load
Test pagina con JavaScript disabilitato
dateModified aggiornato per modifiche sostanziali
Segnalare update nel contenuto (“Aggiornato: Mese Anno”)
Review trimestrale contenuti evergreen
Ogni statistica con fonte linkata

Media e Multimodal

Alt text descrittivo e contestuale per immagini
Didascalie che spiegano il contenuto
Trascrizioni per tutti i video
Schema ImageObject/VideoObject implementato
Caption che contestualizzano figure nel testo

Monitoring

Tracciare attività AI crawler nei server logs
Monitorare menzioni del brand in risposte ChatGPT/Perplexity/Gemini
Analizzare competitor citation share
Misurare traffico referral da AI platforms
Review mensile delle metriche

La finestra di opportunità

I dati Cloudflare mostrano che il crawling per AI training domina ancora il traffico, con volumi 8 volte superiori al search crawling e 32 volte superiori al crawling da query utente. Ma il trend è chiaro: il traffico user-action sta crescendo più velocemente di ogni altra categoria.

Chi implementa l’infrastruttura GEO ora costruisce vantaggi che si accumulano nel tempo. Le citazioni generano altre citazioni. L’autorità riconosciuta dai modelli si rafforza. Il first-mover advantage in questo spazio non riguarda solo il posizionamento tecnico: riguarda la costruzione di una presenza consolidata prima che la competizione si intensifichi.

Il SEO tradizionale non scompare. Continua a servire il 70% del traffico search che ancora passa per le SERP classiche. Ma il restante 30%, e la sua traiettoria di crescita, richiede strumenti nuovi.

Fonti

Aggarwal, P., et al. (2024). GEO: Generative Engine Optimization. arXiv:2311.09735. Princeton University, Georgia Tech, Allen Institute for AI, IIT Delhi.

AI Mode Boost. (2025). AI Overview Ranking Factors: 2025 Comprehensive Study.

Cloudflare. (2025, December). From Googlebot to GPTBot: Who’s Crawling Your Site in 2025. Cloudflare Blog.

Dataslayer. (2025). Google AI Overviews Impact 2025: CTR Down 61%.

Howard, J. (2024, September). llms.txt Proposal. Answer AI.

W3C Schema Community. (2024). Schema Vocabulary Documentation.

SEO Sherpa. (2025, October). Google AI Search Guidelines 2025.

Single Grain. (2025, October). Google AI Overviews: The Ultimate Guide to Ranking in 2025.

Yoast. (2025). Structured Data with Schema for Search and AI.

Overdrive Interactive. (2025, July). LLMs.txt: The New Standard for AI Crawling.