Contenuto articolo
Il cambio di paradigma: dai link alle citazioni
GPTBot è passato dal 5% al 30% del traffico crawler in un anno. Il traffico generato da query utente verso AI è cresciuto 15 volte. L’infrastruttura SEO tradizionale non intercetta più questo flusso.
TL;DR: L’ottimizzazione per motori generativi (GEO) richiede interventi tecnici specifici: configurare robots.txt per 20+ AI crawler, implementare llms.txt per guidare LLM verso contenuti prioritari, estendere structured data con JSON-LD incluso Person schema con E-E-A-T completo (73% in più di selezione). Strutturare contenuti in answer blocks di 134-167 parole per facilitare l’estrazione. Contenuti multimodali hanno +156% selection rate. La ricerca Princeton dimostra che aggiungere citazioni da fonti autorevoli aumenta la visibilità fino al 40%. Chi implementa ora costruisce vantaggi competitivi difficili da recuperare.
Il SEO tradizionale ottimizza per un obiettivo specifico: posizionarsi nelle liste ordinate restituite dai motori di ricerca. L’utente cerca, riceve dieci link blu, clicca. Il traffico arriva.
I motori generativi funzionano diversamente. ChatGPT, Perplexity, Gemini, Claude non restituiscono liste di link. Sintetizzano risposte attingendo da fonti multiple, citando (o meno) la provenienza. L’utente ottiene una risposta, non un elenco di opzioni.
Secondo i dati Cloudflare di dicembre 2025, GPTBot ha raggiunto il 30% del traffico AI crawler, in crescita dal 5% dell’anno precedente. Meta-ExternalAgent è entrato al 19%. ChatGPT-User, il bot che accede a pagine web quando gli utenti fanno domande, ha registrato una crescita del 2.825%. Il traffico legato a query utente è aumentato di 15 volte nel corso dell’anno.
Non è un cambiamento marginale. È un nuovo canale di acquisizione che richiede infrastruttura dedicata.
robots.txt: configurazione per AI crawler
Il file robots.txt comunica ai crawler quali parti del sito possono accedere. Per i motori di ricerca tradizionali, la configurazione è consolidata. Per gli AI crawler, il panorama è frammentato: ogni provider usa user-agent diversi, con scopi diversi.
Mappa degli AI crawler principali
OpenAI opera con tre crawler distinti:
User-agent: GPTBot
# Training modelli fondazionali. Raccoglie dati per addestrare GPT.
User-agent: ChatGPT-User
# Browsing utente. Accede a pagine quando un utente chiede informazioni.
User-agent: OAI-SearchBot
# Search. Indicizza contenuti per la funzione di ricerca di ChatGPT.
Anthropic usa:
User-agent: ClaudeBot
# Training e aggiornamento Claude.
User-agent: Claude-Web
# Accesso web per funzionalità utente.
User-agent: anthropic-ai
# Crawler generico Anthropic.
Perplexity:
User-agent: PerplexityBot
# Indicizzazione per AI answer engine.
User-agent: Perplexity-User
# Fetch per query utente.
Google ha separato le funzioni:
User-agent: Google-Extended
# Token per uso AI. NON è un bot, è un flag.
# Controllare questo user-agent impedisce uso dei contenuti per training AI
# mantenendo l'indicizzazione standard.
User-agent: Googlebot
# Crawler tradizionale per Search.
Meta:
User-agent: Meta-ExternalAgent
# Crawling per training modelli AI.
User-agent: Meta-ExternalFetcher
# Fetch per richieste utente. Può bypassare robots.txt.
Altri crawler rilevanti:
User-agent: Amazonbot
User-agent: Bytespider # ByteDance
User-agent: Applebot-Extended # Apple AI (flag, non bot)
User-agent: CCBot # Common Crawl
User-agent: cohere-ai
User-agent: cohere-training-data-crawler
Strategie di configurazione
Strategia 1: Accesso completo per massima visibilità AI
# Permettere tutti gli AI crawler
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Meta-ExternalAgent
Allow: /
User-agent: Amazonbot
Allow: /
Strategia 2: Visibilità AI search, no training
Questa configurazione permette ai sistemi AI di citare i contenuti nelle risposte, ma impedisce l’uso per addestrare modelli:
# Permettere crawler search/user
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Bloccare crawler training
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-training-data-crawler
Disallow: /
Strategia 3: Accesso selettivo per directory
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /api/
Disallow: /internal/
Disallow: /user-data/
Limiti di robots.txt
Un punto critico: robots.txt è un protocollo volontario. I crawler possono ignorarlo.
Ad agosto 2025, Cloudflare ha bloccato i bot di Perplexity dopo aver documentato violazioni del protocollo. A ottobre 2025, Reddit ha intrappolato deliberatamente i crawler Perplexity, dimostrando che aggiravano le restrizioni tramite strumenti di terze parti. Ne è seguita una causa legale.
La conseguenza operativa: robots.txt da solo non basta. Per enforcement reale, servono verifiche IP, regole WAF, o blocchi a livello CDN. Cloudflare riporta che oltre 2.5 milioni di siti usano la sua funzione di managed robots.txt per bloccare AI training.
llms.txt: il nuovo standard per guidare i LLM
A settembre 2024, Jeremy Howard di Answer AI ha proposto llms.txt, un nuovo file standard per comunicare con i Large Language Models. A differenza di robots.txt, che controlla l’accesso, llms.txt guida i modelli verso i contenuti più rilevanti.
Cosa fa llms.txt
Il file llms.txt è un documento markdown posizionato alla root del dominio (/llms.txt). Funziona come una mappa curata che indica ai LLM quali pagine contengono le informazioni più importanti e come interpretarle.
Non è un meccanismo di blocco. È un sistema di raccomandazione, come un bibliotecario che guida un visitatore verso gli scaffali giusti invece di lasciarlo vagare.
Struttura del file
# example.com
> Sito tecnico su implementazioni AI per enterprise.
> Contenuti verificati, aggiornati mensilmente.
## Documentazione Core
- [Guida RAG Produzione](https://example.com/docs/rag-production):
Architetture RAG testate in produzione, pattern di chunking,
metriche di valutazione. Aggiornato Q4 2024.
- [API Reference](https://example.com/docs/api):
Documentazione completa delle API REST. Include esempi
di codice Python e cURL.
## Articoli Tecnici
- [Ottimizzazione Latenza LLM](https://example.com/blog/llm-latency):
Strategie per ridurre latenza p95 sotto 200ms.
Include benchmark su Claude, GPT-4, Mistral.
- [Cost Management AI](https://example.com/blog/ai-costs):
Framework per stimare e ottimizzare costi inference.
Dati reali da deployment enterprise.
## Risorse
- [Glossario AI](https://example.com/glossario):
Definizioni tecniche di 150+ termini AI/ML.
llms-full.txt: versione estesa
Oltre a llms.txt, lo standard prevede un file opzionale llms-full.txt che contiene il contenuto completo del sito in formato flattened. Rimuove HTML, CSS, JavaScript non essenziali e presenta solo il testo. Alcuni siti generano file da 100K+ parole.
Il vantaggio: permette ai LLM di processare l’intero sito in un singolo context. Il limite: supera facilmente la context window della maggior parte dei modelli.
Stato di adozione
A gennaio 2025, OpenAI, Google e Anthropic non supportano nativamente llms.txt. I loro crawler non leggono automaticamente il file.
L’adozione attuale è concentrata in nicchie specifiche:
- Documentazione tecnica: Mintlify ha integrato llms.txt a novembre 2024. I siti di documentazione di Anthropic, Cursor, Cloudflare, Vercel lo usano.
- Directory dedicate: directory.llmstxt.cloud e llmstxt.site catalogano i siti con implementazione.
- Uso manuale: Sviluppatori che uploadano il file direttamente a ChatGPT o Claude per dare contesto.
È un investimento di future-proofing. Quando i major provider adotteranno lo standard, chi ha già implementato avrà vantaggio.
Implementazione
- Creare
/llms.txtalla root del dominio - Formato UTF-8, markdown pulito
- Includere solo pagine indexabili (no noindex, no blocked in robots.txt)
- Aggiungere descrizioni concise ma informative per ogni URL
- Opzionale: riferimento in robots.txt con
# LLM-policy: /llms.txt
Differenze con altri file standard
| File | Scopo | Target | Formato |
|---|---|---|---|
| robots.txt | Controllo accesso crawler | Search engines, AI crawler | Plain text, direttive |
| sitemap.xml | Catalogo completo pagine | Search engines | XML |
| llms.txt | Mappa curata contenuti prioritari | LLM | Markdown |
| humans.txt | Crediti team | Umani | Plain text |
Structured Data e JSON-LD per AI
Lo structured data non è una novità. È standard SEO dal 2011. Ma il suo ruolo cambia nel contesto dei motori generativi.
Perché lo Structured Data conta per AI
I LLM processano tutto come token. Non distinguono nativamente tra un prezzo, un nome, una data. Lo structured data fornisce un layer semantico esplicito che disambigua il contenuto.
Un articolo con markup JSON-LD comunica in modo machine-readable: questo è l’autore, questa è la data di pubblicazione, questa è l’organizzazione editrice, queste sono le fonti citate. Il modello non deve inferire questa struttura dal testo.
Implementazione JSON-LD base
JSON-LD (JavaScript Object Notation for Linked Data) è il formato preferito. Si inserisce in un tag <script> senza mescolarsi con l’HTML del contenuto:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "TechArticle",
"@id": "https://example.com/rag-production-guide",
"headline": "RAG in Produzione: Pattern e Anti-Pattern",
"description": "Guida tecnica all'implementazione RAG enterprise con metriche reali",
"author": {
"@type": "Person",
"name": "Nome Autore",
"url": "https://example.com/team/nome-autore",
"jobTitle": "AI Team Leader",
"knowsAbout": ["RAG", "LLM", "Vector Databases", "AI Engineering"]
},
"datePublished": "2025-01-04",
"dateModified": "2025-01-04",
"publisher": {
"@type": "Organization",
"name": "Example.com",
"url": "https://example.com",
"logo": {
"@type": "ImageObject",
"url": "https://example.com/logo.png"
}
},
"mainEntityOfPage": {
"@type": "WebPage",
"@id": "https://example.com/rag-production-guide"
},
"articleSection": "Engineering",
"keywords": ["RAG", "Production", "Enterprise AI", "Vector Search"],
"wordCount": 3500,
"inLanguage": "it"
}
</script>
Schema types prioritari per AI visibility
Article / TechArticle / NewsArticle
Per contenuti editoriali. TechArticle per documentazione tecnica.
FAQPage
Struttura Q&A che i motori generativi possono estrarre direttamente:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "Qual è la differenza tra SEO e GEO?",
"acceptedAnswer": {
"@type": "Answer",
"text": "SEO ottimizza per liste di risultati dei motori di ricerca tradizionali. GEO ottimizza per essere citati nelle risposte sintetizzate dai motori generativi come ChatGPT e Perplexity."
}
},
{
"@type": "Question",
"name": "llms.txt sostituisce robots.txt?",
"acceptedAnswer": {
"@type": "Answer",
"text": "No. robots.txt controlla l'accesso dei crawler. llms.txt guida i LLM verso contenuti prioritari. Hanno funzioni complementari."
}
}
]
}
</script>
HowTo
Per guide step-by-step:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "HowTo",
"name": "Come configurare robots.txt per AI crawler",
"step": [
{
"@type": "HowToStep",
"position": 1,
"name": "Identificare AI crawler target",
"text": "Mappare gli user-agent dei crawler AI che vuoi permettere o bloccare."
},
{
"@type": "HowToStep",
"position": 2,
"name": "Definire strategia di accesso",
"text": "Decidere se permettere training, solo search, o bloccare completamente."
},
{
"@type": "HowToStep",
"position": 3,
"name": "Implementare direttive",
"text": "Aggiungere le regole User-agent e Allow/Disallow al file robots.txt."
}
]
}
</script>
Organization e Person: E-E-A-T per AI
E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) non è più solo un framework Google. I dati mostrano che i LLM verificano le credenziali autore prima di citare: il 96% dei contenuti in AI Overview proviene da fonti con autori verificati. Contenuti con author bio dettagliate hanno il 73% in più di probabilità di essere selezionati.
Lo schema Person deve andare oltre il nome. Serve comunicare credenziali, affiliazioni, competenze specifiche:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Person",
"name": "Mario Rossi",
"url": "https://example.com/team/mario-rossi",
"image": "https://example.com/images/mario-rossi.jpg",
"jobTitle": "Senior AI Engineer",
"description": "10+ anni di esperienza in ML/AI, specializzato in sistemi RAG enterprise",
"worksFor": {
"@type": "Organization",
"name": "TechCorp Italia",
"url": "https://techcorp.it"
},
"alumniOf": {
"@type": "CollegeOrUniversity",
"name": "Politecnico di Milano"
},
"hasCredential": [
{
"@type": "EducationalOccupationalCredential",
"credentialCategory": "certification",
"name": "AWS Machine Learning Specialty"
},
{
"@type": "EducationalOccupationalCredential",
"credentialCategory": "certification",
"name": "Google Cloud Professional ML Engineer"
}
],
"knowsAbout": [
"Retrieval-Augmented Generation",
"Large Language Models",
"Vector Databases",
"MLOps",
"AI Engineering"
],
"sameAs": [
"https://linkedin.com/in/mariorossi",
"https://github.com/mariorossi",
"https://scholar.google.com/citations?user=xxx"
]
}
</script>
Checklist E-E-A-T per schema Person:
descriptioncon anni di esperienza e specializzazionehasCredentialper certificazioni verificabiliknowsAboutcon topic specifici (non generici)sameAscon link a profili verificabili (LinkedIn, GitHub, Google Scholar)alumniOfper affiliazioni accademicheworksForcon URL organizzazione
Citation schema
Per contenuti che citano fonti esterne, lo schema Citation aggiunge contesto:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "Analisi Paper GEO Princeton",
"citation": [
{
"@type": "ScholarlyArticle",
"name": "GEO: Generative Engine Optimization",
"author": ["Pranjal Aggarwal", "et al."],
"datePublished": "2024",
"publisher": {
"@type": "Organization",
"name": "Princeton University"
},
"url": "https://arxiv.org/abs/2311.09735"
}
]
}
</script>
ImageObject e VideoObject per contenuti multimodali
I contenuti multimodali hanno il 156% in più di probabilità di essere selezionati in AI Overview rispetto ai contenuti solo testo. Gemini e Perplexity investono pesantemente nella multimodal search. Lo schema per media diventa rilevante:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "ImageObject",
"contentUrl": "https://example.com/images/architettura-rag.png",
"name": "Architettura sistema RAG enterprise",
"description": "Schema architetturale che mostra il flusso dati tra vector store, retriever e LLM in un sistema RAG di produzione",
"author": {
"@type": "Person",
"name": "Mario Rossi"
},
"datePublished": "2025-01-04",
"encodingFormat": "image/png"
}
</script>
Per video con trascrizione:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "VideoObject",
"name": "Deploy RAG in produzione: walkthrough",
"description": "Video tutorial su deployment di sistema RAG su AWS con monitoring",
"thumbnailUrl": "https://example.com/video/rag-deploy-thumb.jpg",
"uploadDate": "2025-01-04",
"duration": "PT12M30S",
"transcript": "https://example.com/video/rag-deploy-transcript.txt",
"author": {
"@type": "Person",
"name": "Mario Rossi"
}
}
</script>
Best practice per media AI-friendly:
- Alt text descrittivo e contestuale (non “image1.png”)
- Didascalie che spiegano il contenuto, non solo lo descrivono
- Trascrizioni per tutti i video
- Caption che contestualizzano la figura nel testo circostante
Impatto reale sugli AI search
John Mueller di Google ha chiarito a gennaio 2025 che lo structured data non è un fattore di ranking diretto. Ma l’impatto indiretto è documentato:
- Rich snippets da structured data aumentano il CTR del 30% secondo BrightEdge
- Il 72% dei siti in prima pagina Google usa schema markup
- AI Overviews di Google elaborano structured data per costruire risposte
Lo structured data non garantisce citazioni nei motori generativi. Ma fornisce il contesto semantico che facilita l’interpretazione corretta del contenuto.
Requisiti tecnici per AI crawler
Oltre allo structured data, ci sono requisiti tecnici che influenzano la capacità dei LLM di processare e citare i contenuti.
Static HTML vs JavaScript rendering
Gli AI crawler hanno difficoltà con contenuti renderizzati via JavaScript. A differenza di Googlebot, che esegue JS, molti crawler AI preferiscono o richiedono HTML statico.
Regole operative:
- Contenuto critico deve essere presente nell’HTML statico, non generato dinamicamente
- Evitare contenuti nascosti in tab, accordion, o caricati on-scroll
- Se usi framework JS (React, Vue, Next.js), verificare che il SSR o SSG produca HTML completo
- Test: visualizzare la pagina con JS disabilitato. Ciò che si vede è ciò che vedono i crawler AI base.
Content freshness signals
Il 23% dei contenuti selezionati in AI Overview ha meno di 30 giorni. Perplexity indicizza giornalmente. I segnali di freshness sono prioritari rispetto all’autorità storica.
Implementazione:
dateModified in schema deve riflettere aggiornamenti reali:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "TechArticle",
"headline": "Guida RAG Produzione",
"datePublished": "2024-06-15",
"dateModified": "2025-01-04"
}
</script>
Checklist freshness:
- Aggiornare
dateModifiedsolo per modifiche sostanziali (non typo fix) - Segnalare update prominentemente nel contenuto (“Aggiornato: Gennaio 2025”)
- Review trimestrale contenuti evergreen
- Aggiornare statistiche e dati almeno annualmente
- Rimuovere o marcare come archivio contenuti obsoleti
Verifica citazioni e fact-checking
Gli AI eseguono cross-reference con fonti autorevoli in tempo reale. Contenuti con citazioni verificabili hanno l’89% in più di probabilità di selezione rispetto a contenuti con claim non supportati.
Regole:
- Ogni statistica deve avere fonte linkata
- “Secondo una ricerca” senza link = claim non verificabile = penalizzato
- Preferire fonti primarie (paper, documentazione ufficiale) su fonti secondarie
- Citazioni da Wikipedia, Statista, Pew Research, paper arXiv hanno peso maggiore
Strategie GEO: cosa dice la ricerca
Il paper “GEO: Generative Engine Optimization” di Princeton, Georgia Tech, Allen Institute e IIT Delhi è lo studio più rigoroso disponibile sull’ottimizzazione per motori generativi. Ha testato 9 tecniche su 10.000 query.
Le tre strategie più efficaci
1. Cite Sources: +40% visibilità
Aggiungere citazioni da fonti autorevoli è la strategia con il maggior impatto generale. Per siti con ranking basso nelle SERP tradizionali, l’effetto è ancora più marcato: +115% per siti in quinta posizione.
Non basta citare. La citazione deve essere da fonte riconosciuta, pertinente al claim, verificabile.
2. Quotation Addition
Incorporare citazioni dirette da esperti del settore aumenta autenticità e profondità percepita. Funziona particolarmente per contenuti opinion-based.
3. Statistics Addition
Dati quantitativi battono discussioni qualitative. “Il 42% dei progetti AI fallisce” ha più impatto di “molti progetti AI falliscono”. Funziona particolarmente per domini Legal e Government.
Strutturare contenuti per estrazione: Answer Blocks
I LLM non citano pagine intere. Estraggono blocchi specifici. Ottimizzare per questo pattern è critico.
Passage length ottimale: 134-167 parole per blocco citabile. Per risposte FAQ dirette: 40-60 parole. Contenuti con summary box all’inizio hanno il 28-40% in più di probabilità di citazione.
Implementazione pratica:
-
TL;DR all’inizio: Ogni articolo apre con un blocco di sintesi self-contained. Non è solo per lettori umani: è il blocco che i LLM estraggono preferenzialmente.
-
Sezioni self-contained: Ogni H2/H3 deve essere citabile indipendentemente dal resto. Un LLM deve poter estrarre quella sezione e avere una risposta completa.
-
Heading come domande: “Cos’è il RAG?” performa meglio di “RAG Overview”. Matching diretto con query conversazionali.
-
Paragrafi modulari: 75-300 parole per sezione. No wall of text. I blocchi modulari sono più facili da estrarre e citare.
-
Risposte dirette prima, contesto dopo: La risposta alla domanda implicita dell’heading deve apparire nelle prime 2-3 frasi. L’elaborazione viene dopo.
Esempio di struttura ottimizzata:
## Qual è la differenza tra SEO e GEO?
SEO ottimizza per posizionarsi nelle liste di risultati dei motori
di ricerca tradizionali. GEO ottimizza per essere citati nelle
risposte sintetizzate dai motori generativi come ChatGPT, Perplexity
e Gemini. [40-60 parole di risposta diretta]
Il cambiamento fondamentale riguarda l'obiettivo: dal ranking alla
citazione. Nel SEO classico, il successo è posizione 1 nelle SERP.
In GEO, il successo è essere la fonte che l'AI cita quando risponde.
[Elaborazione e contesto]
Strategie domain-specific
Il paper ha scoperto che l’efficacia varia per dominio:
- History: Tono autorevole e persuasivo
- Facts: Citazioni da fonti primarie
- Law/Government: Statistiche e dati quantitativi
- Science/Health: Terminologia tecnica + autorevolezza
Ottimizzazione per piattaforma specifica
Ogni LLM ha preferenze diverse. Una strategia GEO efficace considera queste differenze:
| Piattaforma | Preferenze principali | Ottimizzazione |
|---|---|---|
| ChatGPT | Wikipedia, brand popolari, contenuti consolidati | Authority building, presenza Wikipedia se applicabile |
| Perplexity | Reddit, contenuti recenti, real-time | Freshness prioritaria, engagement community |
| Gemini | Multimodal, ecosistema Google, schema markup | Video, immagini ottimizzate, structured data completo |
| Claude | Accuracy, contenuti bilanciati, attribuzione | Proper attribution, framing neutro ed evidence-based |
| Google AI Overview | Top 10 organic, E-E-A-T forte | SEO tradizionale + structured data esteso |
Implicazioni operative:
- ChatGPT cita Wikipedia nel 48% delle risposte. Per topic dove esiste una voce Wikipedia, la presenza lì pesa.
- Perplexity preferisce Reddit (46.7% delle citazioni). Contenuti discussi in subreddit rilevanti hanno vantaggio.
- Gemini integra immagini e video nelle risposte. Contenuti multimodali performano meglio.
- Claude verifica accuracy più rigorosamente. Claim non supportati vengono scartati.
Cosa non funziona
Keyword stuffing: Aggiungere keyword dalla query al contenuto peggiora la visibilità del 10% rispetto al baseline. I motori generativi penalizzano l’over-optimization.
Persuasive language generico: Tono persuasivo senza sostanza non migliora il posizionamento.
Democratizzazione dei risultati
Un aspetto interessante: GEO livella il campo di gioco. I siti con ranking basso nelle SERP tradizionali beneficiano di più dalle ottimizzazioni GEO rispetto ai siti dominanti. Cite Sources porta +115% ai siti in quinta posizione e -30% ai siti in prima posizione.
Per piccoli editori e business indipendenti, è un’opportunità di competere con corporate giants senza budget SEO comparabili.
Checklist implementazione
robots.txt
- Mappare tutti gli AI crawler rilevanti per il settore
- Definire strategia: full access, search-only, selective
- Implementare direttive per ogni user-agent
- Verificare sintassi con Google Robots Testing Tool
- Monitorare server logs per attività crawler
- Verificare compliance effettiva (IP check per crawler sospetti)
- Review trimestrale: nuovi crawler emergono regolarmente
llms.txt
- Creare file markdown alla root del dominio
- Includere descrizione del sito e tipo di contenuti
- Organizzare URL per categoria/priorità
- Aggiungere descrizioni concise per ogni link
- Verificare che tutti gli URL siano indexabili
- Considerare llms-full.txt per siti con documentazione estesa
- Aggiornare quando nuovi contenuti prioritari vengono pubblicati
Structured Data / JSON-LD
- Implementare Organization schema per il sito
- Aggiungere Person schema per autori con E-E-A-T completo:
-
descriptioncon anni esperienza e specializzazione -
hasCredentialper certificazioni verificabili -
knowsAboutcon topic specifici -
sameAscon LinkedIn, GitHub, Google Scholar
-
- Usare Article/TechArticle per contenuti editoriali
- Implementare FAQPage per sezioni Q&A
- Aggiungere Citation schema per contenuti research-based
- Implementare ImageObject/VideoObject per media
- Validare con Google Rich Results Test
- Verificare parità markup-contenuto visibile
Contenuto GEO-optimized
- TL;DR di 40-60 parole all’inizio di ogni articolo
- Sezioni self-contained (citabili indipendentemente)
- Heading formulati come domande dove appropriato
- Paragrafi modulari: 75-300 parole per sezione
- Passage length: 134-167 parole per blocchi chiave
- Includere citazioni da fonti autorevoli in ogni articolo
- Aggiungere statistiche e dati quantitativi con fonte
- Usare quotazioni da esperti dove rilevante
- Evitare keyword stuffing
- Calibrare tono per dominio
Requisiti tecnici
- Contenuto critico in HTML statico (non solo JS-rendered)
- No contenuti nascosti in tab/accordion/lazy-load
- Test pagina con JavaScript disabilitato
-
dateModifiedaggiornato per modifiche sostanziali - Segnalare update nel contenuto (“Aggiornato: Mese Anno”)
- Review trimestrale contenuti evergreen
- Ogni statistica con fonte linkata
Media e Multimodal
- Alt text descrittivo e contestuale per immagini
- Didascalie che spiegano il contenuto
- Trascrizioni per tutti i video
- Schema ImageObject/VideoObject implementato
- Caption che contestualizzano figure nel testo
Monitoring
- Tracciare attività AI crawler nei server logs
- Monitorare menzioni del brand in risposte ChatGPT/Perplexity/Gemini
- Analizzare competitor citation share
- Misurare traffico referral da AI platforms
- Review mensile delle metriche
La finestra di opportunità
I dati Cloudflare mostrano che il crawling per AI training domina ancora il traffico, con volumi 8 volte superiori al search crawling e 32 volte superiori al crawling da query utente. Ma il trend è chiaro: il traffico user-action sta crescendo più velocemente di ogni altra categoria.
Chi implementa l’infrastruttura GEO ora costruisce vantaggi che si accumulano nel tempo. Le citazioni generano altre citazioni. L’autorità riconosciuta dai modelli si rafforza. Il first-mover advantage in questo spazio non riguarda solo il posizionamento tecnico: riguarda la costruzione di una presenza consolidata prima che la competizione si intensifichi.
Il SEO tradizionale non scompare. Continua a servire il 70% del traffico search che ancora passa per le SERP classiche. Ma il restante 30%, e la sua traiettoria di crescita, richiede strumenti nuovi.
Fonti
Aggarwal, P., et al. (2024). GEO: Generative Engine Optimization. arXiv:2311.09735. Princeton University, Georgia Tech, Allen Institute for AI, IIT Delhi.
AI Mode Boost. (2025). AI Overview Ranking Factors: 2025 Comprehensive Study.
Cloudflare. (2025, December). From Googlebot to GPTBot: Who’s Crawling Your Site in 2025. Cloudflare Blog.
Dataslayer. (2025). Google AI Overviews Impact 2025: CTR Down 61%.
Howard, J. (2024, September). llms.txt Proposal. Answer AI.
W3C Schema Community. (2024). Schema Vocabulary Documentation.
SEO Sherpa. (2025, October). Google AI Search Guidelines 2025.
Single Grain. (2025, October). Google AI Overviews: The Ultimate Guide to Ranking in 2025.
Yoast. (2025). Structured Data with Schema for Search and AI.
Overdrive Interactive. (2025, July). LLMs.txt: The New Standard for AI Crawling.