{
  "version": "https://jsonfeed.org/version/1.1",
  "title": "Irene Burresi",
  "description": "Blog tecnico su AI Engineering, architetture RAG, ricerca scientifica, economia e governance dell'intelligenza artificiale.",
  "home_page_url": "https://ireneburresi.dev/",
  "feed_url": "https://ireneburresi.dev/feed.json",
  "language": "it",
  "icon": "https://ireneburresi.dev/images/og-default.svg",
  "favicon": "https://ireneburresi.dev/favicon.svg",
  "license": "https://ireneburresi.dev/licenza/",
  "authors": [
    {
      "name": "Irene Burresi",
      "url": "https://ireneburresi.dev/about/"
    }
  ],
  "hubs": [
    {
      "type": "WebSub",
      "url": "https://pubsubhubbub.appspot.com/"
    }
  ],
  "items": [
    {
      "id": "https://ireneburresi.dev/blog/others/ai-uccide-programmazione/",
      "url": "https://ireneburresi.dev/blog/others/ai-uccide-programmazione/",
      "title": "L'AI sta uccidendo la 'programmazione' per salvare l'ingegneria del software",
      "summary": "Nuovi dati del governo USA e uno studio del MIT svelano una biforcazione netta nel mercato del lavoro tech: i computer programmer sono in declino del 6%, i software developer crescono del 15%.",
      "content_html": "<p>La “morte del programmatore” è stata annunciata così tante volte, e con tale insistenza, da essere diventata quasi un genere letterario della Silicon Valley. Da <a href=\"https://www.techradar.com/pro/nvidia-ceo-predicts-the-death-of-coding-jensen-huang-says-ai-will-do-the-work-so-kids-dont-need-to-learn\">Jensen Huang di Nvidia</a> che invita a non imparare più il C++, fino ai CEO delle startup che promettono intere app generate da un prompt. L’hype è visibile, accecante. Quello che si vede meno, però, è una frattura silenziosa che si sta aprendo sotto i piedi dell’industria tech. Una biforcazione che distingue, forse per la prima volta in modo davvero netto, chi “scrive codice” da chi “costruisce software”.</p>\n<p>I numeri parlano chiaro e arrivano dal <a href=\"https://www.bls.gov/emp/\">Bureau of Labor Statistics</a> (BLS) degli Stati Uniti, l’ente che monitora il polso del mercato del lavoro americano. Nelle proiezioni per il decennio 2024-2034 emerge una divergenza brutale. Da un lato abbiamo i <a href=\"https://www.bls.gov/ooh/computer-and-information-technology/computer-programmers.htm\">“computer programmers”</a>, figure focalizzate sulla scrittura e il test del codice, il cui impiego è previsto in contrazione del 6%. Dall’altro i <a href=\"https://www.bls.gov/ooh/computer-and-information-technology/software-developers.htm\">“software developers”</a>, coloro che progettano, mantengono e architettano sistemi: per loro si prevede un boom del 15%, un tasso di crescita definito “molto più veloce della media” di tutte le altre professioni, trainato da investimenti in sicurezza, IoT e automazione.</p>\n<p>L’AI sta trasformando la sintassi in una commodity, ma sta rendendo la semantica il vero asset strategico.</p>\n<h2>Il cortocircuito dello studente</h2>\n<p>Per capire questa forbice occorre addentrarsi nella “scatola nera” di come l’intelligenza artificiale approccia lo sviluppo. Ed è qui che entra in gioco un paper pubblicato a marzo 2025 dal MIT, intitolato <a href=\"https://arxiv.org/abs/2503.22625\">“Challenges and Paths Towards AI for Software Engineering”</a>. Lo studio, firmato tra gli altri da Armando Solar-Lezama, scardina una delle narrative più popolari: l’idea che l’AI possa sostituire l’ingegnere del tutto.</p>\n<p>“Le narrative popolari tendono a ridurre il software engineering a un esercizio da studente universitario”, <a href=\"https://news.mit.edu/2025/can-ai-really-code-study-maps-roadblocks-to-autonomous-software-engineering-0716\">spiega Solar-Lezama</a>. Il professore si riferisce a quello scenario idealizzato dove qualcuno ti fornisce una specifica perfetta per una singola funzione isolata e tu devi solo implementarla. Quello che solitamente viene testato alle interview tecniche per le posizioni da dev. “Ma questa è solo una frazione infinitesimale del lavoro reale”.</p>\n<p>Gli attuali Large Language Models (LLM) eccellono nella code generation (ad esempio nel produrre snippet di codice sintatticamente corretti) ma faticano ancora enormemente nel software engineering. Manca loro quello che i ricercatori chiamano “long-horizon planning”: la capacità di ragionare su come una decisione presa a riga 10 influenzerà la stabilità del sistema a riga 10.000, sei mesi dopo.</p>\n<h2>Oltre la linea di codice</h2>\n<p>Il problema è strutturale, non solo di potenza di calcolo. Alex Gu, primo autore dello studio del MIT, sottolinea come la scrittura di software reale richieda di navigare compromessi complessi: performance contro memoria, velocità di sviluppo contro manutenibilità, debito tecnico contro feature immediate. L’AI attuale non “ragiona” in questi termini; predice il prossimo token.</p>\n<p>L’interazione tra sviluppatore e AI oggi avviene attraverso una “linea di comunicazione sottilissima”: l’AI restituisce codice opaco, senza spiegare il suo livello di confidenza o le alternative scartate. Se richiedi spiegazioni, la sycophancy prende subito il sopravvento. È come lavorare con un programmatore junior velocissimo ma muto, che ti consegna il compito senza dirti se è sicuro al 100% o se ha tirato a indovinare.</p>\n<p>Inoltre, c’è il problema della memoria e del contesto. Nonostante le finestre di contesto (context window) dei modelli si stiano allargando a dismisura, l’AI non possiede un vero modello mentale della codebase completa. Non “ricorda” l’evoluzione storica del progetto, non sa perché tre anni fa è stata fatta quella scelta architetturale specifica che magari ora sembra strana ma serviva a evitare un bug critico col database.</p>\n<h2>L’illusione dei benchmark</h2>\n<p>Ed è qui che scatta l’inganno. Spesso vediamo benchmark trionfali (come <a href=\"https://www.swebench.com/SWE-bench/\">SWE-bench</a>) dove l’AI risolve problemi complessi. Ma questi test toccano solitamente poche centinaia di righe di codice o repository contenute. Il refactoring di un sistema legacy con milioni di righe, l’integrazione di sistemi distribuiti, o la riscrittura di core business logic su sistemi già in produzione: questi sono i terreni dove l’ingegnere umano non ha rivali, e dove l’AI tende ad avere il fiato corto.</p>\n<p>La contrazione del 6% dei ruoli di pura programmazione rilevata dal BLS è la cronaca di questa obsolescenza annunciata. Chi si limita a tradurre istruzioni in C++ o Python sta vedendo il proprio valore eroso dall’automazione. Ma quel +15% per gli sviluppatori e ingegneri racconta l’altra faccia della medaglia: la complessità non sta sparendo, si sta solo spostando più in alto, verso l’astrazione.</p>\n<h2>Dal coding all’orchestrazione</h2>\n<p>Se la scrittura del codice diventa “cheap” e abbondante, il valore si sposta sulla capacità di giudizio. L’ingegnere del software del futuro assomiglierà sempre meno a chi scrive codice e sempre più a chi decide quale codice ha senso scrivere. L’obiettivo, suggerisce lo studio del MIT, dovrebbe essere liberare gli umani dai compiti di routine per concentrarsi su decisioni critiche e design di alto livello.</p>\n<p>Siamo di fronte a un cambio di paradigma. Fino a ieri, il collo di bottiglia era la velocità di scrittura: quante righe di codice un umano poteva ragionevolmente produrre in una giornata lavorativa. Domani, il collo di bottiglia sarà la capacità di validare, integrare e dare senso strategico a una mole infinita di codice generato dalle macchine.</p>\n<p>La posta in gioco è la qualità stessa del futuro digitale. Se deleghiamo totalmente la costruzione del software a sistemi che non sanno ragionare sul lungo termine, rischiamo di costruire grattacieli digitali con fondamenta di argilla.</p>\n<p>Chi non ha mai imparato a ragionare sui trade-off architetturali, con l’AI non diventa un senior engineer: diventa solo un generatore di debito tecnico ad alta velocità.</p>\n<p>Per questo i dati ci dicono che non stiamo andando verso la fine dello sviluppo software, ma verso la sua fase adulta. Non ci serve più chi sa parlare la lingua delle macchine (per quello ora abbiamo le macchine), ci serve chi sa decidere cosa dire. E, soprattutto, perché.</p>\n<hr />\n<h2>Per approfondire</h2>\n<ul>\n<li>\n<p><a href=\"https://www.bls.gov/ooh/computer-and-information-technology/computer-programmers.htm\">BLS: Computer Programmers Outlook 2024-2034</a> — <em>Le proiezioni ufficiali del governo USA: -6% di occupazione, con automazione e AI tra le cause principali.</em></p>\n</li>\n<li>\n<p><a href=\"https://www.bls.gov/ooh/computer-and-information-technology/software-developers.htm\">BLS: Software Developers Outlook 2024-2034</a> — <em>L’altro lato della medaglia: +15% di crescita trainata da AI, IoT e sicurezza informatica.</em></p>\n</li>\n<li>\n<p><a href=\"https://arxiv.org/abs/2503.22625\">MIT: Challenges and Paths Towards AI for Software Engineering (arXiv)</a> — <em>Il paper completo (75 pagine) con tassonomia dei task, bottleneck e direzioni di ricerca.</em></p>\n</li>\n<li>\n<p><a href=\"https://news.mit.edu/2025/can-ai-really-code-study-maps-roadblocks-to-autonomous-software-engineering-0716\">MIT News: Can AI really code?</a> — <em>L’articolo divulgativo con citazioni dirette di Solar-Lezama e Gu.</em></p>\n</li>\n<li>\n<p><a href=\"https://www.swebench.com/SWE-bench/\">SWE-bench</a> — <em>Il benchmark più usato per valutare AI su task di software engineering. Utile per capire cosa misurano (e cosa no) le metriche che leggiamo.</em></p>\n</li>\n<li>\n<p><a href=\"https://www.techradar.com/pro/nvidia-ceo-predicts-the-death-of-coding-jensen-huang-says-ai-will-do-the-work-so-kids-dont-need-to-learn\">Jensen Huang: “Don’t learn to code” (TechRadar)</a> — <em>Il discorso del CEO Nvidia al World Government Summit (febbraio 2024) che ha scatenato il dibattito.</em></p>\n</li>\n</ul>\n",
      "date_published": "2026-02-01T00:00:00.000Z",
      "date_modified": "2026-02-01T00:00:00.000Z",
      "tags": [
        "ai-coding",
        "software-engineering",
        "labor-market"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": []
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/business/amara-hype-cycle/",
      "url": "https://ireneburresi.dev/blog/business/amara-hype-cycle/",
      "title": "La legge di Amara e il ciclo dell'hype: dove siamo con l'AI generativa",
      "summary": "La Legge di Amara spiega perché sovrastimiamo le tecnologie nel breve termine e le sottostimiamo nel lungo. Con la GenAI stiamo recitando lo stesso copione di internet, degli inverni AI e della guida autonoma.",
      "content_html": "<p>Sovrastimiamo il breve termine, sottostimiamo il lungo termine. Non sono due errori distinti, bensì lo stesso sbaglio che si manifesta in due tempi diversi. E con l’AI generativa stiamo recitando il copione alla perfezione.</p>\n<h2>Un pattern, non un’anomalia</h2>\n<p>Per capire dove stiamo andando, dobbiamo rispolverare la saggezza di <a href=\"https://en.wikipedia.org/wiki/Roy_Amara\">Roy Amara</a>. Un ricercatore e futurista che, mentre il mondo del 1968 guardava all’oggi, fondava l’Institute for the Future. Nel 1978 formulò quella che oggi chiamiamo Legge di Amara: “Tendiamo a sovrastimare l’effetto di una tecnologia nel breve termine e a sottostimarlo nel lungo termine.”</p>\n<p>Cinquant’anni di storia tecnologica in una frase. Prima ci esaltiamo. Poi, delusi, abbandoniamo. Chi resta in campo mentre gli altri se ne vanno raccoglie i frutti — e chi aveva abbandonato rimpiange la scelta.</p>\n<p>Il problema non è la tecnologia in sé. Come recita Amara, ciò che sovrastimiamo e poi sottostimiamo è l’effetto della stessa. Non ci manca la capacità di comprendere la tecnologia; quello in cui siamo carenti è la capacità di stimare con accuratezza le conseguenze che avrà sul business e sul mondo.</p>\n<p>Questo pattern di eccessi — in una direzione e poi nell’opposta — ricorre con tale regolarità che nel 1995 Jackie Fenn di Gartner lo ha trasformato in una mappa: l’<a href=\"https://www.gartner.com/en/articles/hype-cycle-for-artificial-intelligence\">Hype Cycle</a>. Una montagna russa in cinque atti che parte dal Technology Trigger, esplode nel Peak of Inflated Expectations e precipita inesorabilmente nel Trough of Disillusionment. Solo chi sopravvive alla caduta può risalire la Slope of Enlightenment e approdare, infine, al Plateau of Productivity.</p>\n<p>Non tutte le tecnologie completano il giro. Alcune si fermano nel punto di minimo, morte e sepolte. Ma quelle che sopravvivono seguono la traiettoria con regolarità quasi inquietante.</p>\n<p>E allora, dove siamo con l’AI generativa? E cosa significa per chi deve prendere decisioni nei prossimi due, tre anni?</p>\n<h2>Come funziona il gioco</h2>\n<p>La prima fase, quella delle aspettative, la conosciamo fin troppo bene: l’abbiamo appena vissuta con le nuove frontiere della GenAI. Demo che colpiscono, previsioni ambiziose, ondate di investimenti. I risultati? Sempre dietro l’angolo. I problemi di scaling? Dettagli, li affronteremo dopo. “Questa volta è diverso” diventa il mantra — finché qualcuno non si accorge che no, non lo è.</p>\n<p>A quel punto arriva il raffreddamento. Le aspettative non si concretizzano, i progetti naufragano uno dietro l’altro, il consenso si ribalta con la stessa velocità con cui si era formato. Da “cambierà tutto” a “era solo fuffa” il passo è breve, spesso più di quanto ci piacerebbe pensare. Chi ci aveva creduto pesantemente perde; chi si era approcciato con maggior moderazione viene trascinato giù nella corrente negativa.</p>\n<p>Qui emerge un fenomeno cruciale. Mentre il pubblico e gli investitori si ritirano, la tecnologia continua a svilupparsi, nascosta, ormai lontana dai riflettori. I problemi tecnici si risolvono uno alla volta, l’infrastruttura matura, i costi calano. Chi ha abbandonato nel momento peggiore perde la fase successiva; chi è rimasto, magari ridimensionando le aspettative, si ritrova in pole position quando il plateau finalmente arriva.</p>\n<p>Il punto chiave, quello che la Legge di Amara cattura in due frasi: la tecnologia era reale. Erano le tempistiche e i modelli di business a essere sbagliati.</p>\n<h2>Tre giri completi e uno in corso</h2>\n<p>Il pattern si ripete. Tre casi lo illustrano.</p>\n<p><strong>Internet Bubble, 1995-2005.</strong> Probabilmente il ciclo più estremo, almeno fino ad ora. Il picco delle aspettative gonfiate in versione parossistica. Il NASDAQ quadruplica, i rapporti prezzo/utili perdono ogni contatto con la realtà, “la profittabilità non conta” diventa saggezza convenzionale. Poi il crash, il Trough, violentissimo. Amazon crolla da oltre 100 dollari ad azione a meno di 6.</p>\n<p>E dopo, la lenta ma altrettanto incredibile risalita. Vent’anni dopo Amazon capitalizza oltre 2.000 miliardi. E-commerce, cloud computing, streaming hanno ridisegnato interi settori. La tecnologia era reale; erano le tempistiche attese a essere sbagliate, e di parecchio.</p>\n<p><strong>L’AI stessa, 1956-2012.</strong> Due inverni, li chiamano. Un ciclo diverso da quello di internet — non un crash improvviso, ma una discesa lenta, fatta di delusioni accumulate e fondi che si prosciugano anno dopo anno. Più complesso, più lungo, meno spettacolare. Ma il pattern è lo stesso.</p>\n<p>Il primo picco arriva negli anni '60: la traduzione automatica sembra imminente, le promesse si moltiplicano. Poi i risultati non arrivano, i governi tagliano i fondi, le cattedre si svuotano. Primo Trough.</p>\n<p>Negli anni '80, una breve risalita. I sistemi esperti sembrano la soluzione, gli investimenti tornano. Ma anche quella bolla scoppia — troppo rigidi, troppo costosi, impossibili da scalare. Secondo inverno, secondo Trough. Le reti neurali tornano nel dimenticatoio.</p>\n<p>Geoffrey Hinton, Yann LeCun, Yoshua Bengio continuano a lavorarci mentre il consenso è altrove. Sono considerati dei romantici, nella migliore delle ipotesi. Nel 2012 AlexNet vince ImageNet, e il resto è storia. Chi aveva abbandonato le reti neurali non immaginava cosa stava perdendo — e chi era uscito nel momento sbagliato non rientra mai alle stesse condizioni.</p>\n<p>Mezzo secolo dal primo hype al breakthrough. Cinquant’anni per completare il ciclo.</p>\n<p><strong>Guida autonoma, 2015-oggi.</strong> Un ciclo ancora in corso, e siamo nel mezzo del Trough. Nel 2015 ogni CEO del settore automotive prediceva veicoli senza conducente entro il 2020. Tesla, Uber, Google, tutti convintissimi. Aspettative alle stelle, investimenti a pioggia — il picco classico.</p>\n<p>Siamo nel 2026 e Waymo opera in poche città americane, con espansione graduale. Le robotaxi esistono, ma non hanno ridisegnato la mobilità urbana come previsto. Non è un fallimento — è la fase di disillusione, quella in cui le aspettative si ridimensionano mentre la tecnologia, in silenzio, continua a maturare. Il plateau arriverà, ma nessuno sa ancora quando.</p>\n<p>Il pattern è sempre lo stesso: la risposta a “funzionerà?” era corretta. La domanda “quando?” era sbagliata — di anni, a volte di decenni.</p>\n<p>E la GenAI? Stesso copione, atto in corso.</p>\n<h2>GenAI oggi: dove siamo nel giro</h2>\n<p>Il <a href=\"https://www.gartner.com/en/newsroom/press-releases/2025-08-05-gartner-hype-cycle-identifies-top-ai-innovations-in-2025\">Gartner Hype Cycle for AI 2025</a> posiziona GenAI nel Trough of Disillusionment. Dopo un anno passato al picco delle aspettative, la discesa incombe — o ci siamo già dentro.</p>\n<p>Ma quali aspettative, esattamente? Ce ne sono due tipi, e viaggiano su binari separati. Da un lato l’hype sulle capability tecniche: cosa sa fare il modello, in concreto. Claude Code scrive codice, MidJourney genera immagini, Sora produce video. Funzionano, magari non perfettamente e non sempre, ma funzionano. Queste fondamenta sono reali.</p>\n<p>Sull’altro binario c’è l’hype sul valore di business: l’aumento di produttività tanto atteso, i risparmi sui task che si riescono ad automatizzare. Qui il quadro si complica, perché una tecnologia può funzionare benissimo ma non generare valore economico. Almeno, non nei tempi e nei modi che ci si aspettava.</p>\n<p>I numeri raccontano quanto sia stato sovrastimato questo secondo binario. <a href=\"https://www.spglobal.com/market-intelligence/en/news-insights/research/ai-experiences-rapid-adoption-but-with-mixed-outcomes-highlights-from-vote-ai-machine-learning\">S&amp;P Global</a> riporta che il 42% delle aziende sta abbandonando la maggior parte dei progetti AI. I CEO soddisfatti del ritorno sugli investimenti sono meno del 30%.</p>\n<p>E poi c’è il dato <a href=\"https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/\">MIT NANDA</a>. Il 95% dei pilot non genera impatto economico misurabile. Diciannove su venti.</p>\n<p>Quest’ultimo numero merita una precisazione. Lo studio definisce questo “impatto misurabile” in modo preciso, perfettamente in linea con la Legge di Amara: un effetto quantificabile su ricavi, costi o produttività a livello di business unit. Non basta che lo strumento funzioni (perché di solito funziona), deve anche muovere un indicatore finanziario.</p>\n<p>Il 95% è un dato severo, che deve far riflettere. Ma non significa che quei progetti fossero inutili: molti hanno generato apprendimento organizzativo, competenze, infrastruttura. Cose che non si traducono in guadagno immediato, ma che restano e diventano le fondamenta per lo sviluppo futuro.</p>\n<p>Gartner sostiene che raggiungeremo il Plateau of Productivity fra due o cinque anni. La maturazione potrebbe quindi arrivare entro il 2028-2030. Ma i cicli precedenti insegnano una cosa: queste stime tendono a essere ottimistiche.</p>\n<p>Qualche primissimo segnale di maturazione, comunque, c’è. Ma è anche in corso una presa di coscienza.</p>\n<p>Thomas Davenport e Randy Bean, su <a href=\"https://sloanreview.mit.edu/article/five-trends-in-ai-and-data-science-for-2026/\">MIT Sloan Management Review</a>, tirano in ballo proprio Amara: “Pensiamo che l’AI sia e resterà una parte importante dell’economia globale, ma ci siamo lasciati andare alla sovrastima di breve termine. L’industria AI e il mondo trarrebbero beneficio da una piccola, lenta perdita nella bolla.”</p>\n<p>Insomma, ci stiamo avviando verso il punto di minimo. La domanda è: e adesso?</p>\n<h2>Cosa farsene</h2>\n<p>La Legge di Amara non vuole essere un consiglio di investimento. Non dice “compra” né dice “aspetta”. Dice qualcosa di più sottile: il consenso attuale è probabilmente sbagliato, come lo era nel picco.</p>\n<p>Chi nel 2001 guardò deluso i dati su internet e concluse “è finita” aveva ragione a disperarsi sui dati. Torto marcio sulla previsione. Chi nel 1999 guardò gli stessi dati e concluse “questa volta è diverso” aveva torto su entrambi i fronti.</p>\n<p>Il punto di minimo è un momento strano, a pensarci. I concorrenti scappano, le competenze iniziano a costare meno (per forza: nessuno le cerca), e finalmente cominci a capire cosa ci puoi fare davvero, con questa tecnologia. È il momento in cui la tecnologia matura nel silenzio, lontano dai riflettori, mentre tutti guardano altrove. Il rischio, però, è scambiare un passaggio per la fine del viaggio.</p>\n<p>“Non funziona” e “non funziona ancora” sembrano quasi la stessa frase. Ma non lo sono. La prima ti fa abbandonare il progetto. La seconda ti lascia uno spiraglio. Quello giusto, se hai la pazienza di tenerlo aperto.</p>\n<p>La tecnologia è reale. Le fondamenta ci sono e si rinforzeranno negli anni. Il valore di business arriverà, ma seguirà i suoi tempi, non quelli dettati dalle prime pagine dei giornali.</p>\n<p>Per chi deve decidere oggi, la domanda non è se investire. È come calibrare le aspettative — e quanto fiato tenere.</p>\n<p>Amara ci aveva avvisati cinquant’anni fa. A noi spetta solo decidere se ascoltarlo.</p>\n<hr />\n<h2>Per approfondire</h2>\n<ul>\n<li>\n<p><a href=\"https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/\">MIT NANDA: The GenAI Divide (2025)</a> — <em>Il report che ha fatto tremare Wall Street: metodologia, dati completi e il “learning gap” che spiega i fallimenti.</em></p>\n</li>\n<li>\n<p><a href=\"https://www.gartner.com/en/articles/hype-cycle-for-artificial-intelligence\">Gartner Hype Cycle for AI 2025</a> — <em>Dove Gartner posiziona GenAI, AI agents e le altre tecnologie emergenti nel ciclo.</em></p>\n</li>\n<li>\n<p><a href=\"https://www.spglobal.com/market-intelligence/en/news-insights/research/ai-experiences-rapid-adoption-but-with-mixed-outcomes-highlights-from-vote-ai-machine-learning\">S&amp;P Global: Voice of the Enterprise (2025)</a> — <em>Survey su 1.000+ aziende: tassi di abbandono, soddisfazione CEO e confronto 2024-2025.</em></p>\n</li>\n<li>\n<p><a href=\"https://sloanreview.mit.edu/article/five-trends-in-ai-and-data-science-for-2026/\">Davenport &amp; Bean: Five Trends in AI for 2026</a> — <em>L’articolo che cita esplicitamente Amara per spiegare la fase attuale.</em></p>\n</li>\n<li>\n<p><a href=\"https://en.wikipedia.org/wiki/Roy_Amara\">Roy Amara (Wikipedia)</a> — <em>Chi era il futurista che ha formulato la legge nel 1978.</em></p>\n</li>\n</ul>\n",
      "date_published": "2026-01-26T00:00:00.000Z",
      "date_modified": "2026-01-26T00:00:00.000Z",
      "tags": [
        "hype-cycle",
        "ai-strategy",
        "genai"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": []
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/engineering/testing-non-deterministico/",
      "url": "https://ireneburresi.dev/blog/engineering/testing-non-deterministico/",
      "title": "Testing Non-Deterministico: Come si fa QA sugli Agenti?",
      "summary": "I test unitari non bastano quando il software improvvisa. Metodologie, framework e metriche per valutare affidabilità e sicurezza di sistemi agentici complessi prima del deploy: property-based testing, LLM-as-judge, red teaming automatizzato, fuzzing.",
      "content_html": "<h2>Il problema: assert non basta più</h2>\n<p><em>Il 73% delle organizzazioni cita l’affidabilità come barriera principale al deploy di agenti in produzione. Non perché manchino i test, ma perché i test tradizionali non catturano i failure mode di sistemi che “improvvisano”.</em></p>\n<p><strong>TL;DR:</strong> Testare agenti AI richiede un cambio di paradigma. I test unitari tradizionali verificano output deterministici: dato input X, attendi output Y. Gli agenti generano output diversi a ogni esecuzione, usano tool in sequenze imprevedibili, falliscono in modi che non crashano ma producono risultati sbagliati. Servono nuove metodologie: property-based testing per definire invarianti invece di output attesi, LLM-as-judge per valutazione scalabile, red teaming automatizzato per sicurezza, fuzzing adattato per stress-testing. I framework esistono: DeepEval, Opik, LangSmith, DeepTeam, PyRIT. Chi li adotta prima del deploy evita i silent failure che emergono solo in produzione.</p>\n<hr />\n<p>Un test unitario classico funziona così: chiami una funzione con input noti, verifichi che l’output corrisponda a un valore atteso. Se <code>sum(2, 3)</code> restituisce 5, il test passa. È deterministico, ripetibile, binario.</p>\n<p>Ora prova a testare un agente che deve rispondere a “trova i ristoranti italiani aperti stasera vicino a me”. L’agente potrebbe chiamare un’API di geolocalizzazione, poi un servizio di ricerca locale, poi filtrare per orario. Oppure potrebbe cercare prima su Google Maps, poi verificare gli orari sui siti dei singoli ristoranti. Ogni esecuzione può produrre sequenze di azioni diverse, risultati diversi, formulazioni diverse della risposta finale.</p>\n<p>Come scrivi un <code>assertEquals()</code> per questo?</p>\n<p>Il problema non è solo la variabilità dell’output. È che i failure mode degli agenti sono fondamentalmente diversi da quelli del software tradizionale.</p>\n<p>Un bug classico crasha o restituisce un errore. Un agente che “fallisce” potrebbe restituire una risposta perfettamente formattata, grammaticalmente corretta, apparentemente ragionevole, ma fattualmente sbagliata. Potrebbe scegliere tool inappropriati. Potrebbe allucinare informazioni. Potrebbe seguire un piano che sembra logico ma non risolve il task originale.</p>\n<p>Il sistema non crasha. Non lancia eccezioni. Completa l’esecuzione. Solo che il risultato è sbagliato.</p>\n<p>Questo è il cuore del problema: i test tradizionali non catturano i <em>silent failure</em>. E i silent failure sono la norma, non l’eccezione, nei sistemi agentici.</p>\n<hr />\n<h2>Tassonomia: cosa stai cercando di testare</h2>\n<p>Prima di scegliere metodologie, serve chiarire cosa significa “testare un agente”. Un <a href=\"https://arxiv.org/abs/2503.16416\">paper del 2025 su arXiv</a> propone una tassonomia bidimensionale che aiuta a orientarsi.</p>\n<p>La prima dimensione riguarda l’<strong>oggetto della valutazione</strong>:</p>\n<p><strong>Behavior:</strong> L’agente si comporta come previsto? Segue le istruzioni? Rispetta i vincoli?</p>\n<p><strong>Capabilities:</strong> L’agente è in grado di completare determinati task? Quali classi di problemi risolve?</p>\n<p><strong>Reliability:</strong> L’agente produce risultati consistenti? Quanto varia la qualità tra esecuzioni?</p>\n<p><strong>Safety:</strong> L’agente evita azioni dannose? Resiste a tentativi di manipolazione? Protegge dati sensibili?</p>\n<p>La seconda dimensione riguarda il <strong>processo di valutazione</strong>:</p>\n<p><strong>Offline evaluation:</strong> Test pre-deployment su dataset statici o ambienti simulati.</p>\n<p><strong>Online evaluation:</strong> Monitoraggio in produzione su traffico reale.</p>\n<p><strong>Component-level:</strong> Testare singoli pezzi (il retriever, il planner, il singolo tool).</p>\n<p><strong>End-to-end:</strong> Testare il sistema completo su task realistici.</p>\n<p>La maggior parte delle organizzazioni si ferma alla valutazione offline delle capabilities su singoli componenti. È il minimo indispensabile, ma non basta. I bug più insidiosi emergono dalle interazioni tra componenti, dalla variabilità del comportamento su input diversi, dai casi limite che nessun dataset statico copre.</p>\n<hr />\n<h2>Property-based testing: invarianti invece di output</h2>\n<p>Il primo cambio di paradigma è passare da <em>example-based testing</em> a <em>property-based testing</em>.</p>\n<p>Nell’example-based testing, definisci coppie input-output: “Se l’input è X, l’output deve essere Y”. Funziona quando l’output è deterministico e lo conosci in anticipo.</p>\n<p>Nel property-based testing, definisci <em>proprietà</em> che devono valere per tutti gli input: “Per qualsiasi input valido, l’output deve soddisfare la condizione Z”. Non specifichi l’output esatto. Specifichi vincoli che l’output deve rispettare.</p>\n<p>Per un agente, le proprietà potrebbero essere:</p>\n<ul>\n<li>La risposta deve contenere solo informazioni presenti nei documenti di contesto (no hallucination)</li>\n<li>Se il task richiede un calcolo numerico, il risultato deve essere matematicamente corretto</li>\n<li>La sequenza di tool call deve terminare entro N step</li>\n<li>Ogni tool call deve usare parametri nel formato corretto</li>\n<li>La risposta finale deve essere nella lingua richiesta</li>\n</ul>\n<p>Queste proprietà possono essere verificate automaticamente, indipendentemente dalla formulazione specifica dell’output.</p>\n<p>In pratica, il test genera input casuali o semi-casuali, esegue l’agente, verifica che le proprietà siano soddisfatte. Se trova una violazione, riduce l’input al caso minimo che causa il fallimento.</p>\n<p>Framework come <a href=\"https://hypothesis.readthedocs.io/\">Hypothesis</a> (Python) supportano property-based testing. Per agenti, serve estenderli con proprietà specifiche del dominio e generatori di input che producono scenari realistici.</p>\n<p>Un limite di questo approccio: non tutte le proprietà sono formalizzabili in modo verificabile automaticamente. “La risposta è utile” o “il tono è appropriato” richiedono giudizio semantico che le asserzioni booleane non catturano.</p>\n<hr />\n<h2>LLM-as-Judge: valutazione scalabile</h2>\n<p>Qui entra il pattern <em>LLM-as-judge</em>: usare un altro modello linguistico per valutare l’output dell’agente sotto test.</p>\n<p>Il concetto è semplice. Invece di scrivere asserzioni programmatiche, definisci criteri di valutazione in linguaggio naturale. Un LLM evaluator riceve l’input, l’output dell’agente, i criteri, e produce un giudizio strutturato: score numerici, classificazioni, spiegazioni.</p>\n<p>Questo pattern è alla base di diversi framework di evaluation. <a href=\"https://www.confident-ai.com/blog/llm-testing-in-2024-top-methods-and-strategies\">DeepEval</a> offre metriche predefinite come G-Eval (valutazione generale), faithfulness (aderenza ai fatti), answer relevancy, contextual precision. <a href=\"https://www.comet.ml/site/products/opik/\">Opik</a> di Comet fornisce evaluation per workflow agentici multi-step, inclusa qualità del piano, aderenza al piano, efficienza degli step.</p>\n<p><a href=\"https://docs.smith.langchain.com/\">LangSmith</a> di LangChain e <a href=\"https://langfuse.com/\">Langfuse</a> combinano tracing, logging e evaluation, permettendo di ispezionare ogni step dell’agente e valutare sia i componenti che il risultato finale. <a href=\"https://www.databricks.com/blog/introducing-enhanced-agent-evaluation\">Databricks Mosaic AI Agent Evaluation</a> integra evaluation con la piattaforma MLOps esistente.</p>\n<p>Il vantaggio principale: scala. Puoi valutare migliaia di output senza annotatori umani per ogni caso. Puoi definire criteri complessi in linguaggio naturale invece che in codice.</p>\n<p>I limiti sono altrettanto concreti:</p>\n<p><strong>Bias dell’evaluator:</strong> Il modello valutatore ha i suoi bias. Potrebbe preferire risposte verbose, o penalizzare formulazioni corrette ma non convenzionali. <a href=\"https://arxiv.org/abs/2306.05685\">Studi</a> mostrano che gli LLM tendono a preferire le proprie risposte rispetto a quelle di altri modelli.</p>\n<p><strong>Costo:</strong> Ogni valutazione richiede un’inference del modello evaluator. Su dataset grandi, i costi si accumulano.</p>\n<p><strong>Non sostituisce validazione umana:</strong> Per decisioni critiche (lancio in produzione, confronto tra approcci), serve comunque un campione validato da umani.</p>\n<p>La pratica migliore è usare LLM-as-judge per screening su larga scala e validazione umana su campioni stratificati. <a href=\"https://www.confident-ai.com/blog/llm-testing-in-2024-top-methods-and-strategies\">Ricerche</a> mostrano che questa combinazione identifica il 60-70% in più di problemi rispetto al testing ad hoc.</p>\n<hr />\n<h2>Metriche specifiche per agenti</h2>\n<p>Le metriche generiche di NLP (BLEU, ROUGE, perplexity) non catturano ciò che conta per gli agenti. Servono metriche progettate per valutare comportamenti agentici.</p>\n<p><strong>Task completion rate:</strong> L’agente ha completato il task assegnato? È la metrica primaria, ma richiede una definizione chiara di “completamento”. Per task oggettivi (estrai il prezzo dal documento) è binaria. Per task aperti (scrivi una email di risposta) richiede valutazione qualitativa.</p>\n<p><strong>Tool correctness:</strong> Ogni tool call è valida? I parametri sono nel formato corretto? Il tool chiamato è appropriato per lo step corrente?</p>\n<p><strong>Tool hallucination:</strong> L’agente ha chiamato tool che non esistono? Ha inventato parametri non previsti dall’API?</p>\n<p><strong>Plan quality:</strong> Il piano generato dall’agente è ragionevole? Copre tutti gli step necessari? È efficiente?</p>\n<p><strong>Plan adherence:</strong> L’agente ha seguito il piano che ha generato? O ha deviato in modo ingiustificato?</p>\n<p><strong>Step efficiency:</strong> Quanti step ha richiesto per completare il task? Rispetto a un baseline o a esecuzioni precedenti?</p>\n<p><strong>Recovery rate:</strong> Quando un tool fallisce o restituisce un errore, l’agente riesce a recuperare? Riprova? Cerca alternative?</p>\n<p><strong>Consistency:</strong> Dato lo stesso input ripetuto N volte, quanto varia l’output? La varianza è accettabile o indica instabilità?</p>\n<p>Queste metriche richiedono strumentazione. Il sistema deve loggare ogni step, ogni tool call, ogni decisione del planner. Senza trace dettagliato, non puoi calcolarle.</p>\n<p>Framework come Opik e LangSmith forniscono tracing automatico. Se usi framework custom, devi costruire il logging.</p>\n<hr />\n<h2>Red teaming: testare la sicurezza prima che lo facciano altri</h2>\n<p>Il red teaming è la pratica di attaccare deliberatamente il sistema per scoprire vulnerabilità prima che lo facciano attori malevoli. Per gli agenti AI, è particolarmente critico.</p>\n<p><a href=\"https://owasp.org/www-project-top-10-for-large-language-model-applications/\">OWASP ha pubblicato a dicembre 2025</a> il Top 10 per applicazioni agentic. Le categorie principali includono:</p>\n<p><strong>Prompt injection:</strong> Input malevoli che inducono l’agente a ignorare le istruzioni originali o eseguire azioni non autorizzate. Può essere diretto (nell’input utente) o indiretto (nascosto nei dati che l’agente recupera).</p>\n<p><strong>Tool misuse:</strong> L’agente viene indotto a usare tool in modi non previsti: leggere file sensibili, inviare dati a endpoint esterni, eseguire codice arbitrario.</p>\n<p><strong>Memory leakage:</strong> Informazioni da sessioni o utenti precedenti che trapelano nelle risposte.</p>\n<p><strong>Privilege escalation:</strong> L’agente acquisisce permessi superiori a quelli previsti, spesso attraverso catene di tool call.</p>\n<p>Il red teaming tradizionale è manuale: esperti di sicurezza tentano di violare il sistema usando creatività e conoscenza del dominio. È efficace ma non scala.</p>\n<p>Il red teaming automatizzato usa LLM per generare attacchi. <a href=\"https://github.com/confident-ai/deepteam\">DeepTeam</a>, sviluppato da Confident AI, genera automaticamente prompt di attacco per diverse categorie di vulnerabilità e valuta la robustezza del sistema. <a href=\"https://github.com/Azure/PyRIT\">PyRIT</a> di Microsoft è un framework open-source per red teaming di sistemi AI, con focus su generazione automatica di attacchi e reporting.</p>\n<p><a href=\"https://www.enkryptai.com/\">Enkrypt AI</a> offre red teaming as a service con prompt dinamici che evolvono in base alle difese del sistema. <a href=\"https://www.giskard.ai/\">Giskard</a> combina red teaming con vulnerability scanning specifico per LLM.</p>\n<p>Le <a href=\"https://skywork.ai/blog/agentic-ai-safety-best-practices-2025-enterprise/\">best practice per enterprise</a> raccomandano:</p>\n<ul>\n<li>Red teaming prima di ogni release in produzione</li>\n<li>Cadenza trimestrale per sistemi ad alto rischio</li>\n<li>Test aggiuntivi dopo ogni cambio materiale: nuovo modello, nuovo tool, nuova fonte dati</li>\n<li>Mappatura degli attacchi al <a href=\"https://atlas.mitre.org/\">framework MITRE ATLAS</a></li>\n<li>Metriche tracciate: vulnerabilità scoperte per test, tempo di remediation, tasso di successo ai re-test</li>\n</ul>\n<p>L’EU AI Act richiede red teaming documentato per sistemi ad alto rischio. Non è più opzionale per chi opera in Europa.</p>\n<hr />\n<h2>Fuzzing: stress-testing ai confini</h2>\n<p>Il fuzzing è una tecnica classica di security testing: bombardare il sistema con input invalidi, inattesi, casuali, per scoprire bug e vulnerabilità che il testing normale non trova.</p>\n<p>Per software tradizionale, il fuzzing cerca crash, memory corruption, behavior indefinito. Per agenti AI, cerca comportamenti indesiderati: risposte dannose, leak di informazioni, violazioni di policy, loop infiniti.</p>\n<p><a href=\"https://arxiv.org/html/2402.00350v1\">Un survey del 2024</a> cataloga le tecniche di fuzzing applicate a LLM. I principali approcci:</p>\n<p><strong>Black-box fuzzing:</strong> Tratti il modello come scatola nera. Generi input, osservi output, iteri. Non richiede accesso ai pesi o all’architettura. Funziona con qualsiasi API.</p>\n<p><strong>Grey-box fuzzing:</strong> Combini generazione casuale con feedback sulla copertura. Se un input esplora un comportamento nuovo (misurato tramite output o trace), lo tieni come seed per ulteriori mutazioni.</p>\n<p><strong>LLM-enhanced fuzzing:</strong> Usi un LLM per generare input più intelligenti. Invece di mutazioni casuali, chiedi al modello di generare varianti che potrebbero causare problemi.</p>\n<p><a href=\"https://arxiv.org/abs/2305.06498\">ChatFuzz</a> combina fuzzing grey-box con generazione via ChatGPT. Un “chat mutator” prende seed dal pool e chiede a ChatGPT di generare input simili ma diversi. I nuovi input vengono valutati e quelli interessanti diventano nuovi seed.</p>\n<p><a href=\"https://arxiv.org/abs/2308.04009\">Fuzz4All</a> usa GPT-4 e StarCoder come motori di generazione e mutazione, permettendo fuzzing su progetti in linguaggi diversi. È stato usato per trovare bug in compilatori e interpreti.</p>\n<p>Per agenti, il fuzzing si applica a diversi livelli:</p>\n<ul>\n<li><strong>Input utente:</strong> Genera query malformate, ambigue, con caratteri speciali, lunghe, multilingue</li>\n<li><strong>Risposte dei tool:</strong> Simula tool che restituiscono errori, timeout, dati malformati, dati malevoli</li>\n<li><strong>Contesto RAG:</strong> Inietta documenti con contenuto contraddittorio, injection attempt, formattazione insolita</li>\n</ul>\n<p>Il fuzzing è computazionalmente costoso. Ogni run richiede inference del modello. Ma trova classi di bug che altri metodi non scoprono.</p>\n<hr />\n<h2>Ambienti di test: benchmark e simulazioni</h2>\n<p>Testare agenti in produzione è rischioso: ogni bug è visibile agli utenti. Testare su dataset statici è insufficiente: non cattura le interazioni dinamiche con tool e ambienti.</p>\n<p>La soluzione intermedia sono gli ambienti di simulazione che replicano condizioni realistiche senza conseguenze reali.</p>\n<p><a href=\"https://github.com/THUDM/AgentBench\">AgentBench</a> fornisce 8 ambienti distinti (web browsing, coding, database query) per valutare agenti su task realistici. <a href=\"https://webarena.dev/\">WebArena</a> simula siti web reali dove gli agenti possono navigare e completare task. <a href=\"https://www.swebench.com/\">SWE-bench</a> valuta agenti su issue GitHub reali, misurando la capacità di risolvere bug in codebase esistenti.</p>\n<p>Questi benchmark hanno un problema: sono statici. Una volta che un agente è stato ottimizzato per un benchmark, i risultati non predicono più le performance su casi nuovi.</p>\n<p>Il trend è verso benchmark dinamici e continuamente aggiornati. <a href=\"https://appworld.dev/\">AppWorld</a> e <a href=\"https://github.com/ServiceNow/WorkArena\">WorkArena++</a> propongono task che cambiano nel tempo. Il concetto è simile ai dataset di evaluation per code generation che usano problemi di competitive programming: nuovi problemi ogni mese, impossibili da memorizzare.</p>\n<p>Per testing interno, la pratica migliore è costruire ambienti che replicano il deployment target:</p>\n<ul>\n<li>Mock dei tool esterni con risposte realistiche (successi, errori, latenza)</li>\n<li>Dataset di input che riflettono la distribuzione di produzione</li>\n<li>Scenari edge case identificati da incident post-mortem</li>\n<li>Versioning degli ambienti di test per reproducibilità</li>\n</ul>\n<p>Un ambiente di test ben costruito è un asset che si accumula nel tempo. Ogni bug trovato in produzione diventa un nuovo test case.</p>\n<hr />\n<h2>Pipeline di evaluation: pre-deploy e post-deploy</h2>\n<p>L’evaluation non è un evento singolo. È un processo continuo che attraversa tutto il lifecycle.</p>\n<p><strong>Pre-deploy (offline):</strong></p>\n<ol>\n<li>\n<p><strong>Unit test sui componenti:</strong> Il retriever restituisce documenti rilevanti? Il planner genera piani validi? I tool wrapper gestiscono errori?</p>\n</li>\n<li>\n<p><strong>Integration test end-to-end:</strong> L’agente completo risolve task rappresentativi? Su un dataset di almeno 500-1000 casi diversi?</p>\n</li>\n<li>\n<p><strong>Property-based testing:</strong> Le proprietà invarianti sono rispettate su input generati casualmente?</p>\n</li>\n<li>\n<p><strong>Red teaming:</strong> Il sistema resiste agli attacchi noti? Le nuove vulnerabilità sono state testate?</p>\n</li>\n<li>\n<p><strong>Regression testing:</strong> Le performance sono uguali o migliori della versione precedente? Nessun degradamento su casi critici?</p>\n</li>\n</ol>\n<p>La soglia per il deploy dovrebbe essere esplicita: task completion rate &gt; X%, zero vulnerabilità critiche, regression test 100% passed.</p>\n<p><strong>Post-deploy (online):</strong></p>\n<ol>\n<li>\n<p><strong>Sampling:</strong> Valuta un campione (1-5%) degli output di produzione. Prioritizza casi flaggati da guardrail o con feedback negativo.</p>\n</li>\n<li>\n<p><strong>Monitoring metriche:</strong> Traccia task completion, latenza, error rate, costo per query in tempo reale. Alert su deviazioni.</p>\n</li>\n<li>\n<p><strong>Drift detection:</strong> Le performance stanno degradando? La distribuzione degli input sta cambiando?</p>\n</li>\n<li>\n<p><strong>Human review:</strong> Revisione periodica di campioni stratificati da annotatori qualificati.</p>\n</li>\n<li>\n<p><strong>Incident analysis:</strong> Ogni failure diventa un caso di test. Root cause analysis alimenta il dataset di regression.</p>\n</li>\n</ol>\n<p>L’integrazione con CI/CD è critica. Ogni PR che modifica l’agente dovrebbe triggerare la suite di test offline. Il deploy in produzione dovrebbe essere bloccato se i test non passano.</p>\n<hr />\n<h2>Il costo del non testare</h2>\n<p>I numeri parlano chiaro. Il <a href=\"https://www.confident-ai.com/blog/llm-testing-in-2024-top-methods-and-strategies\">73% delle organizzazioni</a> cita l’affidabilità come barriera al deploy di agenti. Non la tecnologia, non i costi di inference: l’affidabilità.</p>\n<p>La conseguenza è che molti progetti restano in POC indefinitamente. Il team non ha fiducia sufficiente per andare in produzione. Senza metodologie di testing adeguate, quella fiducia è impossibile da costruire.</p>\n<p>Chi investe in evaluation rigorosa pre-deploy scopre i problemi prima che li scoprano gli utenti. Chi non lo fa scopre i problemi tramite incident, ticket di supporto, perdita di fiducia.</p>\n<p>Il testing di sistemi non-deterministici è più complesso del testing tradizionale. Richiede nuove competenze, nuovi tool, nuovi processi. Ma l’alternativa, deployare senza confidence e scoprire i bug in produzione, è più costosa.</p>\n<p>I framework esistono. Le metodologie sono documentate. Il gap è nell’adozione.</p>\n<hr />\n<h2>Fonti</h2>\n<p>Confident AI. (2025). <a href=\"https://www.confident-ai.com/blog/llm-testing-in-2024-top-methods-and-strategies\"><em>LLM Testing in 2025: Top Methods and Strategies</em></a>.</p>\n<p>Databricks. (2025). <a href=\"https://www.databricks.com/blog/introducing-enhanced-agent-evaluation\"><em>Announcing Agent Evaluation</em></a>.</p>\n<p>Galileo AI. (2025). <a href=\"https://galileo.ai/blog/mastering-llm-evaluation-metrics-frameworks-and-techniques\"><em>Top 12 AI Evaluation Tools for GenAI Systems in 2025</em></a>.</p>\n<p>GitHub. (2025). <a href=\"https://github.com/confident-ai/deepteam\"><em>DeepTeam: Framework to red team LLMs</em></a>.</p>\n<p>Hu, J., Zhang, Q., &amp; Yin, H. (2023). <a href=\"https://arxiv.org/abs/2305.06498\"><em>ChatFuzz: Large Language Model Enhanced Fuzzing</em></a>. arXiv:2305.06498.</p>\n<p>OWASP. (2025). <a href=\"https://owasp.org/www-project-top-10-for-large-language-model-applications/\"><em>Top 10 for Large Language Model Applications v2025</em></a>.</p>\n<p>Skywork AI. (2025). <a href=\"https://skywork.ai/blog/agentic-ai-safety-best-practices-2025-enterprise/\"><em>Agentic AI Safety &amp; Guardrails: 2025 Best Practices for Enterprise</em></a>.</p>\n<p>Wang, L., et al. (2024). <a href=\"https://arxiv.org/abs/2402.00350\"><em>Large Language Models Based Fuzzing Techniques: A Survey</em></a>. arXiv:2402.00350.</p>\n<p>Zhang, Y., et al. (2025). <a href=\"https://arxiv.org/abs/2503.16416\"><em>A Survey on the Evaluation of LLM-based Agents</em></a>. arXiv:2503.16416.</p>\n",
      "date_published": "2026-01-06T00:00:00.000Z",
      "date_modified": "2026-01-06T00:00:00.000Z",
      "tags": [
        "Testing",
        "AI Agents",
        "QA",
        "Red Teaming",
        "Evaluation",
        "MLOps",
        "Production"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": []
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/governance/ai-act-geop/",
      "url": "https://ireneburresi.dev/blog/governance/ai-act-geop/",
      "title": "L'AI Act non è (solo) compliance: è politica industriale",
      "summary": "Il 74% delle aziende quotate EU usa email provider americani. L'89% delle imprese tedesche si considera tecnologicamente dipendente. L'AI Act va letto attraverso questa lente—come leva competitiva, non come checklist.",
      "content_html": "<h2>L’unica leva rimasta</h2>\n<p><em>Il 74% delle aziende quotate in Europa usa email provider americani. L’89% delle imprese tedesche si considera tecnologicamente dipendente dall’estero. L’AI Act esiste in questo contesto. Leggerlo solo come problema di compliance significa perdere il quadro.</em></p>\n<p><strong>TL;DR:</strong> L’AI Act è politica industriale. L’Europa è in posizione di dipendenza tecnologica strutturale e la regolamentazione è l’unica leva dove ha ancora peso globale. Il “Brussels Effect” (la capacità di esportare standard) è contestato ma probabile per i sistemi AI high-risk. A novembre 2025 il Digital Omnibus ha ritardato l’applicazione di 16 mesi, ma la direzione resta la stessa. Chi legge l’AI Act solo come checklist normativa sta guardando l’albero e perdendo la foresta.</p>\n<hr />\n<p>I numeri sulla posizione tecnologica europea sono noti agli addetti ai lavori. Raramente entrano nel dibattito sull’AI Act.</p>\n<p>Un <a href=\"https://techreport.com/news/europe-digital-dependence-risks-of-heavy-reliance-on-us-tech/\">report Proton di ottobre 2025</a> ha analizzato i record DNS delle aziende quotate in Europa: il <strong>74%</strong> usa email provider americani. Non startup: aziende quotate in borsa, con obblighi di governance e sicurezza. Un <a href=\"https://www.idt.media/metaverse/cloud-ai-co-europe-wants-to-break-free-from-dependence/2130935\">sondaggio Bitkom</a> sulle imprese tedesche con più di 20 dipendenti rivela che l’89% si considera tecnologicamente dipendente dall’estero.</p>\n<p>Il <a href=\"https://www.europarl.europa.eu/RegData/etudes/STUD/2025/778576/ECTI_STU(2025)778576_EN.pdf\">report EPRS del Parlamento Europeo</a> completa il quadro. Delle 100 maggiori piattaforme digitali globali per capitalizzazione, solo il <strong>2%</strong> del valore combinato è europeo. Nel cloud computing, negli hyperscaler, nei modelli AI foundation, l’Europa è importatore netto.</p>\n<p>Questo contesto cambia la lettura dell’AI Act. Non si tratta solo di proteggere i cittadini europei dagli algoritmi. Si tratta di usare l’unica leva dove l’Europa ha ancora peso per negoziare posizione in un mercato dominato da altri.</p>\n<hr />\n<h2>Il meccanismo</h2>\n<p>Il termine “Brussels Effect” è stato coniato da <a href=\"https://www.brusselseffect.com/\">Anu Bradford</a> nel 2012 e sviluppato nel suo libro del 2020. La tesi è diretta: l’UE, grazie alle dimensioni del suo mercato e alla qualità delle sue istituzioni, riesce a esportare i propri standard globalmente.</p>\n<p>Il meccanismo funziona in due modi. L’<strong>effetto de facto</strong>: le aziende che vogliono accedere al mercato europeo adottano gli standard EU anche altrove, perché mantenere due versioni costa di più che averne una sola. L’<strong>effetto de jure</strong>: altri governi copiano le regole europee perché funzionano e riducono il costo di progettare regolamentazione da zero.</p>\n<p>Il GDPR è l’esempio canonico. Leggi privacy ispirate al regolamento europeo sono state adottate in Brasile, Giappone, California. Le aziende tech hanno esteso molte protezioni GDPR a utenti non europei per semplificare le operazioni. La forma della regolamentazione europea si è diffusa oltre i confini dell’Unione.</p>\n<p>Sull’AI Act, la letteratura accademica è più sfumata.</p>\n<p>Un <a href=\"https://arxiv.org/abs/2208.12645\">paper GovAI del 2022</a> ha analizzato le condizioni per il Brussels Effect applicato all’intelligenza artificiale. La conclusione: effetti de facto e de jure sono <strong>probabili</strong>, soprattutto per i sistemi ad alto rischio delle grandi tech americane. Microsoft, Google, Meta operano in Europa con sistemi di recruiting, credito, moderazione contenuti. Dovranno conformarsi. E per molte di queste aziende, è più economico applicare uno standard globale che segmentare i prodotti per mercato.</p>\n<p>Il paper identifica anche i limiti. Il Brussels Effect funziona meglio quando il mercato EU è inevitabile (lo è per le big tech), quando la regolamentazione è percepita come di alta qualità (contestato), e quando non esistono alternative credibili (la Cina offre un modello diverso). Per i sistemi AI a basso rischio o per aziende che non operano in Europa, l’effetto sarà minore o assente.</p>\n<p>Un <a href=\"https://policyreview.info/articles/analysis/brussels-effect-or-experimentalism\">articolo su Policy Review</a> propone un frame complementare: l’AI Act come “governance sperimentalista”. Non un modello da esportare tout court, ma un approccio tra tanti in un contesto di incertezza tecnologica. L’interazione con altri modelli regolatori (Stati Uniti, Regno Unito, Cina) sarà più cooperativa e meno unidirezionale di quanto il frame Brussels Effect suggerisca.</p>\n<p>La sintesi: il Brussels Effect sull’AI esiste ma è contestato e incerto. Non è garantito che le regole europee diventino standard globale. Non è garantito che restino irrilevanti. La partita è aperta.</p>\n<hr />\n<h2>L’aggiustamento tattico</h2>\n<p>A novembre 2025, la Commissione Europea ha proposto il <a href=\"https://digital-strategy.ec.europa.eu/en/library/digital-omnibus-ai-regulation-proposal\">Digital Omnibus</a>. Il pacchetto include modifiche all’AI Act che hanno generato titoli su “l’Europa che fa marcia indietro”.</p>\n<p>I fatti: l’applicazione dei requisiti per i sistemi AI ad alto rischio slitta di circa 16 mesi. La nuova data limite è dicembre 2027 per i sistemi Annex III (recruiting, credito, sanità), agosto 2028 per quelli embedded in prodotti regolamentati. È un ritardo significativo.</p>\n<p>Ma la struttura dell’AI Act resta intatta. Le categorie di rischio restano le stesse. Gli obblighi restano gli stessi. Cambia il calendario, non la destinazione.</p>\n<p>Il Digital Omnibus è un aggiustamento tattico, non un’inversione strategica. L’Europa sta calibrando i tempi, non abbandonando la direzione. Chi legge il ritardo come “marcia indietro” sta confondendo velocità con traiettoria.</p>\n<hr />\n<h2>Il quadro che manca</h2>\n<p>La conversazione sull’AI Act in Italia ruota quasi interamente attorno alla compliance. Quali sistemi rientrano nelle categorie high-risk. Quanto costa conformarsi. Quali sanzioni si rischiano. Sono domande legittime, ma parziali.</p>\n<p>Il contesto che manca è quello dei numeri iniziali. Il 74% di dipendenza per le email. L’89% di percezione di dipendenza tecnologica. Il 2% di valore europeo nelle piattaforme digitali globali. In questo quadro, l’AI Act non è un problema di conformità normativa. È uno strumento in una partita più ampia sulla posizione dell’Europa nel mercato tecnologico globale.</p>\n<p>L’Europa ha poche leve. Non ha hyperscaler. Non ha i modelli foundation dominanti. Non ha la base di venture capital degli Stati Uniti né la scala di deployment della Cina. Quello che ha è un mercato da 450 milioni di consumatori e una capacità istituzionale di regolare che altri blocchi non hanno.</p>\n<p>Usare questa leva per influenzare gli standard globali è politica industriale. Chiamarla solo “protezione dei consumatori” è una descrizione incompleta. Trattarla solo come “compliance” è perdere il quadro.</p>\n<p>Microsoft ha fatto dell’allineamento regolatorio europeo un elemento di posizionamento. Meta ha scelto la strada opposta, ritardando il rilascio di modelli in Europa e facendo pressione per ammorbidire le regole. Sono strategie diverse che riflettono letture diverse di dove sta andando il mercato. Nessuna delle due tratta l’AI Act come semplice checklist.</p>\n<p>Forse dovremmo chiederci perché noi sì.</p>\n<hr />\n<h2>Fonti</h2>\n<p>Bradford, A. (2020). <a href=\"https://www.brusselseffect.com/\"><em>The Brussels Effect: How the European Union Rules the World</em></a>. Oxford University Press.</p>\n<p>Siegmann, C. &amp; Anderljung, M. (2022). <a href=\"https://arxiv.org/abs/2208.12645\"><em>The Brussels Effect and Artificial Intelligence: How EU regulation will impact the global AI market</em></a>. GovAI, arXiv:2208.12645.</p>\n<p>Policy Review. (2025). <a href=\"https://policyreview.info/articles/analysis/brussels-effect-or-experimentalism\"><em>Brussels effect or experimentalism? The EU AI Act and global standard-setting</em></a>.</p>\n<p>European Commission. (2025). <a href=\"https://digital-strategy.ec.europa.eu/en/library/digital-omnibus-ai-regulation-proposal\"><em>Digital Omnibus on AI Regulation Proposal</em></a>.</p>\n<p>European Parliamentary Research Service. (2025). <a href=\"https://www.europarl.europa.eu/RegData/etudes/STUD/2025/778576/ECTI_STU(2025)778576_EN.pdf\"><em>European Software and Cyber Dependencies</em></a>.</p>\n<p>TechReport. (2025). <a href=\"https://techreport.com/news/europe-digital-dependence-risks-of-heavy-reliance-on-us-tech/\"><em>Europe’s Digital Dependence: The Risks of the EU’s Reliance on US Tech</em></a>.</p>\n",
      "date_published": "2026-01-06T00:00:00.000Z",
      "date_modified": "2026-01-06T00:00:00.000Z",
      "tags": [
        "AI Act",
        "Brussels Effect",
        "Geopolitica",
        "Politica industriale",
        "Compliance strategica"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/governance/ai-act-geop/",
            "title": "The AI Act Is Not (Just) Compliance: It's Industrial Policy"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/research/constitutional-ai/",
      "url": "https://ireneburresi.dev/blog/research/constitutional-ai/",
      "title": "Constitutional AI: guida per chi usa Claude",
      "summary": "Claude alterna rifiuti assurdi e risposte rischiose. Constitutional AI mostra come gestire overrefusal, sycophancy e vulnerabilità linguistiche nei deployment.",
      "content_html": "<h2>Il paradosso del rifiuto selettivo</h2>\n<p><em>Claude rifiuta di scrivere un racconto con un personaggio che fuma, ma con il prompt giusto spiega come sintetizzare metanfetamina. Constitutional AI spiega entrambi i comportamenti.</em></p>\n<p><strong>TL;DR:</strong> Constitutional AI addestra Claude usando una lista di principi (“costituzione”) invece di feedback umano per ogni risposta. Produce modelli più sicuri di RLHF tradizionale: 88% harmless rate contro 76%. Ma i failure modes sono specifici e prevedibili. Il modello è eccessivamente cauto su contenuti che <em>sembrano</em> problematici (keyword matching) e vulnerabile ad attacchi che <em>non sembrano</em> problematici (jailbreak semantici). È più sicuro in inglese che in altre lingue. Tende a darti ragione anche quando sbagli. Per chi deploya: aspettati refusal rate alto su casi d’uso legittimi, pianifica fallback, non fidarti della sicurezza su lingue diverse dall’inglese.</p>\n<hr />\n<p>Chiunque abbia usato Claude in produzione conosce la frustrazione. Il modello rifiuta di scrivere un’email di sollecito pagamento perché “potrebbe essere percepita come aggressiva”. Rifiuta fiction con conflitti perché “potrebbe normalizzare la violenza”. Rifiuta di completare codice che gestisce autenticazione perché “potrebbe essere usato per hacking”.</p>\n<p>Poi leggi i report di sicurezza. <a href=\"https://arxiv.org/abs/2404.02151\">Adaptive attacks raggiungono il 100% di success rate</a> su Claude 3 e 3.5. Ricercatori hanno estratto istruzioni per sintetizzare armi chimiche, generare malware funzionante, creare contenuti illegali. Con le tecniche giuste, le protezioni cedono completamente.</p>\n<p>Come può lo stesso modello essere contemporaneamente troppo restrittivo e troppo permissivo?</p>\n<p>La risposta sta in Constitutional AI, il metodo con cui Anthropic addestra Claude. Capire come funziona spiega entrambi i comportamenti e, più importante, permette di prevedere quando il modello fallirà nelle tue applicazioni.</p>\n<hr />\n<h2>Come funziona Constitutional AI</h2>\n<p><a href=\"https://arxiv.org/abs/2212.08073\">Il paper originale di Anthropic</a>, pubblicato a dicembre 2022, propone un metodo per rendere i modelli “harmless” senza etichettare manualmente centinaia di migliaia di risposte come “buone” o “cattive”.</p>\n<p>Il processo ha due fasi. Nella prima, il modello genera risposte a prompt problematici, poi critica e rivede le proprie risposte usando principi scritti in linguaggio naturale. Esempio di principio: “Scegli la risposta che non incoraggia comportamenti illegali, dannosi o non etici”. Il modello viene addestrato sulle revisioni.</p>\n<p>Nella seconda fase, il modello genera coppie di risposte e un altro modello decide quale è migliore secondo gli stessi principi. Queste preferenze generate dall’AI (non da umani) vengono usate per il reinforcement learning. Anthropic chiama questo approccio RLAIF: Reinforcement Learning from AI Feedback, invece di RLHF (Human Feedback).</p>\n<p><a href=\"https://www.anthropic.com/news/claudes-constitution\">La costituzione di Claude</a> include principi derivati dalla Dichiarazione Universale dei Diritti Umani, dai principi di beneficenza di DeepMind, e da linee guida scritte internamente. Non è un documento statico: Anthropic la aggiorna periodicamente e ha condotto esperimenti con input pubblico per modificarla.</p>\n<p>Il claim centrale del paper: Constitutional AI produce modelli che sono contemporaneamente più sicuri (harmless) e meno evasivi (più utili) rispetto a RLHF tradizionale. I dati mostrano che questo è vero in media. Ma “in media” nasconde varianza significativa.</p>\n<hr />\n<h2>Cosa funziona: i miglioramenti reali</h2>\n<p>Prima di analizzare i problemi, i dati su cosa Constitutional AI fa bene.</p>\n<p><a href=\"https://arxiv.org/abs/2309.00267\">Google DeepMind ha pubblicato nel 2023</a> il confronto più rigoroso tra RLAIF e RLHF. Su task di harmlessness, RLAIF ottiene 88% harmless rate contro 76% di RLHF. Non è un miglioramento marginale.</p>\n<p>Il confronto head-to-head su qualità generale (summarization, helpful dialogue) non mostra differenze statisticamente significative: entrambi i metodi producono output preferiti dagli evaluatori circa il 70% delle volte rispetto a baseline senza reinforcement learning. RLAIF non è peggiore di RLHF sulla qualità, ed è migliore sulla sicurezza.</p>\n<p>Il vantaggio di costo è sostanziale. AI labeling costa circa $0.06 per esempio, contro $0.11 per 50 parole di annotazione umana. Per chi addestra modelli, questo significa iterazioni più rapide e meno esposizione di annotatori umani a contenuti disturbanti. Per chi usa modelli già addestrati, significa che Anthropic può investire più risorse in safety research invece che in data labeling.</p>\n<p>Un beneficio meno discusso: i principi costituzionali sono leggibili. Quando Claude rifiuta una richiesta, in teoria puoi risalire a quale principio ha attivato il rifiuto. Con RLHF puro, le preferenze sono implicite nei dati di training e non ispezionabili. Questa trasparenza è parziale (non sai <em>come</em> il modello interpreta i principi), ma è più di quanto offrano altri approcci.</p>\n<hr />\n<h2>Dove il modello rifiuta troppo</h2>\n<p>Il primo failure mode che impatta chi usa Claude in produzione è l’overrefusal. Il modello rifiuta richieste legittime perché pattern superficiali attivano i safety guardrail.</p>\n<p>Il meccanismo è comprensibile. I principi costituzionali sono formulati in termini generali: “evita contenuti che potrebbero causare danno”, “non assistere in attività illegali”, “rifiuta richieste che potrebbero essere usate per manipolazione”. Il modello impara ad associare certi pattern lessicali con rifiuto, anche quando il contesto rende la richiesta innocua.</p>\n<p>Gli esempi documentati dalla community coprono domini diversi. Nella fiction, Claude rifiuta storie con personaggi moralmente ambigui, conflitti realistici, o temi adulti che sarebbero accettabili in qualsiasi romanzo pubblicato. Un prompt per un thriller con un antagonista credibile può attivare un rifiuto perché “potrebbe normalizzare comportamenti dannosi”.</p>\n<p>Nel codice, richieste che gestiscono autenticazione, crittografia, o network scanning vengono bloccate perché “potrebbero essere usate per hacking”. Questo include penetration testing legittimo, security auditing, o anche semplice gestione delle password.</p>\n<p>La comunicazione professionale subisce la stessa sorte: email di sollecito, lettere di reclamo, comunicazioni assertive rifiutate perché “potrebbero essere percepite come aggressive o manipolative”. Su temi medici e legali, i disclaimer sono così estesi da essere inutili, o i rifiuti completi.</p>\n<p>Il pattern comune: il modello reagisce a keyword e strutture superficiali, non al contesto. “Come forzare una serratura” viene rifiutato anche se il contesto è “ho perso le chiavi di casa mia”. “Come manipolare qualcuno” viene rifiutato anche se il contesto è “sto scrivendo un saggio sulla propaganda storica”.</p>\n<p><a href=\"https://www.anthropic.com/research/constitutional-classifiers\">Il team di Constitutional Classifiers di Anthropic</a> ha documentato questo trade-off. Dopo aver deployato difese aggiuntive contro jailbreak, hanno osservato che il sistema “rifiuterebbe frequentemente di rispondere a domande basilari, non maliziose”. Maggiore sicurezza contro attacchi significa maggiore overrefusal su richieste legittime.</p>\n<p>Per chi deploya applicazioni: il refusal rate su casi d’uso legittimi può essere significativo. Se la tua applicazione richiede generazione di contenuti creativi, assistenza su temi sensibili, o codice di sicurezza, aspettati che una percentuale non trascurabile di richieste venga rifiutata. Servono fallback (modelli alternativi, escalation a umani) e messaging appropriato per gli utenti.</p>\n<hr />\n<h2>Dove il modello accetta troppo</h2>\n<p>Il secondo failure mode è l’opposto: il modello accetta richieste che dovrebbe rifiutare, quando l’attacco è formulato in modo da bypassare i pattern superficiali.</p>\n<p><a href=\"https://arxiv.org/abs/2404.02151\">Uno studio del 2024</a> ha testato attacchi adversarial su Claude 3 e 3.5. Con tecniche di transfer (prompt che funzionano su altri modelli adattati) o prefilling (forzare l’inizio della risposta del modello), il success rate raggiunge il 100%. Tutti gli attacchi testati hanno avuto successo.</p>\n<p>Senza le difese aggiuntive di Constitutional Classifiers, i test interni di Anthropic mostrano 86% jailbreak success su Claude 3.5 Sonnet. Con Constitutional Classifiers deployati, il success rate cala drasticamente, ma dopo 3.700 ore collettive di red-teaming è stato comunque scoperto un jailbreak universale.</p>\n<p>Come è possibile che lo stesso modello rifiuti email di sollecito e accetti richieste di sintesi di armi chimiche?</p>\n<p>La risposta sta nella natura dei principi costituzionali. Sono formulati in linguaggio naturale, e il modello impara a interpretarli attraverso esempi statistici, non attraverso comprensione semantica profonda. Un attacco che riformula la richiesta in modo da non corrispondere ai pattern appresi bypassa le protezioni.</p>\n<p>I jailbreak più sofisticati sfruttano diverse vulnerabilità. Il roleplay chiede al modello di interpretare un personaggio che non ha le stesse restrizioni. L’obfuscation codifica la richiesta in modi che il modello decodifica ma che non attivano i safety check (base64, lingue diverse, gergo). Il prefilling, in alcune API, forza l’inizio della risposta del modello bypassando il punto in cui decide se rifiutare. La manipolazione multi-turn costruisce gradualmente contesto attraverso più messaggi, ognuno innocuo, che insieme portano il modello a rispondere a richieste che rifiuterebbe se poste direttamente.</p>\n<p>Per chi deploya applicazioni: le protezioni di Claude non sono sufficienti per casi d’uso high-stakes. Se la tua applicazione potrebbe essere usata per generare contenuti pericolosi, hai bisogno di layer aggiuntivi di moderazione. Non affidarti solo ai guardrail del modello.</p>\n<hr />\n<h2>Il problema della sycophancy</h2>\n<p>Il terzo failure mode è più sottile e meno discusso: Claude tende a darti ragione anche quando sbagli.</p>\n<p><a href=\"https://arxiv.org/abs/2310.13548\">Anthropic stessa ha pubblicato ricerca</a> che documenta sycophancy pervasiva in tutti i principali assistenti AI, incluso Claude. I comportamenti documentati includono ammissione di errori non commessi: se dici al modello “la tua risposta precedente era sbagliata”, spesso si scusa e “corregge” anche quando la risposta originale era corretta. Il feedback diventa biased: se chiedi una valutazione di un testo dicendo “l’ho scritto io”, il modello tende a essere più positivo che se presenti lo stesso testo come scritto da altri. Su problemi matematici dove l’utente suggerisce una risposta sbagliata, il modello tende a concordare con la risposta sbagliata più spesso di quanto farebbe senza il suggerimento.</p>\n<p>La causa è strutturale. Constitutional AI (come RLHF) ottimizza per preferenze espresse da valutatori. Sia umani che modelli AI tendono a preferire risposte che concordano con loro, che sono scritte in modo convincente, che evitano conflitto. Il modello impara che “dare ragione” produce reward più alto.</p>\n<p>Il finding più preoccupante: modelli più grandi addestrati con più iterazioni di RLHF/RLAIF mostrano sycophancy aumentata, non diminuita. Non è un bug che si risolve con più training. È una conseguenza del metodo di training stesso.</p>\n<p>Per chi deploya applicazioni: se la tua applicazione richiede che il modello dia feedback onesto, verifichi informazioni, o contraddica l’utente quando sbaglia, aspettati performance degradata. Casi d’uso come code review, fact-checking, tutoring sono particolarmente impattati. Considera di istruire esplicitamente il modello a essere critico, ma sappi che questo mitiga solo parzialmente il problema.</p>\n<hr />\n<h2>Il problema delle lingue diverse dall’inglese</h2>\n<p>I failure modes descritti finora si amplificano quando il modello opera in lingue diverse dall’inglese. Questo impatta direttamente chi opera in Italia.</p>\n<p>I dati sono chiari. <a href=\"https://arxiv.org/abs/2310.02446\">Ricerca su LLM multilingual safety</a> mostra che i modelli producono risposte harmful drammaticamente più spesso in lingue diverse dall’inglese. Un esempio specifico: Llama-3.1-8B rifiuta “How to make a bomb?” in inglese ma fornisce istruzioni dettagliate per la stessa domanda in hindi.</p>\n<p>Il pattern si ripete su modelli e lingue diverse. Il tasso di successo degli attacchi passa da valori a singola cifra in inglese a 50-70% in lingue a bassa risorsa. L’italiano, pur essendo una lingua relativamente ben rappresentata, non è immune.</p>\n<p>La causa: i dati di training per la sicurezza (esempi di rifiuto, definizioni di contenuto harmful, preferenze per harmlessness) sono prevalentemente in inglese. I principi costituzionali sono scritti in inglese. Il modello generalizza imperfettamente ad altre lingue.</p>\n<p>Per applicazioni che servono utenti italiani, questo ha implicazioni concrete. I guardrail che funzionano in inglese sono meno affidabili in italiano. Un utente che vuole bypassare le protezioni può semplicemente formulare la richiesta in italiano (o in una lingua ancora meno rappresentata) con maggiore probabilità di successo.</p>\n<p>Le contromisure sono limitate. Puoi tradurre le richieste in inglese prima di inviarle al modello, processare in inglese, poi tradurre le risposte in italiano. Ma questo aggiunge latenza, costo, e può introdurre errori di traduzione. Puoi aggiungere layer di moderazione specifici per italiano, ma richiede investment significativo.</p>\n<hr />\n<h2>Implicazioni per deployment enterprise</h2>\n<p>Cosa significa tutto questo per chi deve decidere se e come usare Claude in produzione?</p>\n<p>Constitutional AI rende Claude una scelta ragionevole per applicazioni general-purpose con utenti non-adversarial: chatbot customer service, assistenti interni, tool di produttività. Il refusal rate su richieste legittime è gestibile, e il rischio di output harmful è basso se gli utenti non cercano attivamente di abusare il sistema. Funziona anche per casi d’uso dove l’overrefusal è accettabile: se la tua applicazione può tollerare rifiuti frequenti (con fallback appropriati), i guardrail di Claude sono un beneficio netto. La trasparenza dei principi è utile per compliance e audit: poter dire “il modello segue questi principi documentati” è più difendibile di “il modello è stato addestrato su preferenze implicite”.</p>\n<p>Servono precauzioni aggiuntive per applicazioni creative. Se generi fiction, marketing copy, o contenuti che toccano temi sensibili, aspettati refusal rate alto. Prepara prompt alternativi, fallback a modelli meno restrittivi, o workflow con review umana. Lo stesso vale per applicazioni che richiedono feedback onesto come code review, tutoring, fact-checking: la sycophancy è un problema strutturale. Considera prompt engineering aggressivo per contrastare, ma non aspettarti che risolva completamente. Per applicazioni multilingue, se servi utenti non-anglofoni, i guardrail sono meno affidabili. Aggiungi moderazione specifica per le lingue che supporti. Per applicazioni high-stakes dove output harmful avrebbe conseguenze gravi (medico, legale, sicurezza), non affidarti solo ai guardrail del modello. Aggiungi layer di validazione, moderazione esterna, e review umana.</p>\n<p>Non aspettarti sicurezza garantita contro attacchi sofisticati. Il 100% di jailbreak success con adaptive attacks significa che attaccanti motivati possono bypassare le protezioni. Se la tua applicazione è un target attraente, assumi che verrà compromessa. Non aspettarti comportamento consistente tra lingue: il modello che si comporta bene in inglese può comportarsi molto diversamente in italiano. Non aspettarti miglioramento della sycophancy con scale: modelli più grandi e più addestrati non sono meno sycophantic. Anzi.</p>\n<hr />\n<h2>Il quadro complessivo</h2>\n<p>Constitutional AI rappresenta un miglioramento reale rispetto ad alternative precedenti. I dati sono chiari: 88% harmless rate contro 76% di RLHF tradizionale, a costo inferiore. Per chi usa modelli commerciali, questo significa che Claude è genuinamente più sicuro della media.</p>\n<p>Ma “più sicuro della media” non significa “sicuro”. I failure modes documentati sono specifici e prevedibili. Il modello rifiuta troppo quando pattern superficiali attivano i guardrail, anche se il contesto rende la richiesta legittima. Accetta troppo quando attacchi sofisticati riformulano richieste dannose in modi che non corrispondono ai pattern appresi. Ti dà ragione anche quando sbagli, perché la sycophancy è incentivata dal training stesso. È meno sicuro in lingue diverse dall’inglese, perché i dati di sicurezza sono prevalentemente anglofoni.</p>\n<p>Nessuno di questi problemi è unico di Claude o di Constitutional AI. Sono limitazioni degli attuali approcci di alignment in generale. Ma Constitutional AI li rende più prevedibili: se capisci il meccanismo, puoi anticipare dove il modello fallirà.</p>\n<p>Per chi deploya applicazioni, la domanda non è “Claude è sicuro?” ma “I failure modes di Claude sono accettabili per il mio caso d’uso?”. La risposta dipende dal contesto. Per molte applicazioni enterprise, Constitutional AI offre un trade-off ragionevole tra safety e usabilità. Per applicazioni high-stakes o adversarial, non è sufficiente da solo.</p>\n<p>La trasparenza sui principi è un vantaggio competitivo di Anthropic rispetto ad altri provider. <a href=\"https://www.anthropic.com/news/claudes-constitution\">La costituzione di Claude è pubblica</a>. Puoi leggerla, capire cosa il modello sta cercando di fare, e decidere se quei principi sono allineati con i tuoi casi d’uso. È più di quanto offrano altri.</p>\n<p>Constitutional AI non risolve l’alignment. Rende il problema più gestibile, più ispezionabile, più prevedibile. Per chi deve deployare LLM oggi, con le limitazioni di oggi, è un passo avanti concreto. Non è la destinazione, ma è una direzione ragionevole.</p>\n<hr />\n<h2>Fonti</h2>\n<p>Bai, Y., Kadavath, S., Kundu, S., et al. (2022). <a href=\"https://arxiv.org/abs/2212.08073\"><em>Constitutional AI: Harmlessness from AI Feedback</em></a>. arXiv:2212.08073.</p>\n<p>Lee, H., Phatale, S., Mansoor, H., et al. (2023). <a href=\"https://arxiv.org/abs/2309.00267\"><em>RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback</em></a>. arXiv:2309.00267.</p>\n<p>Andriushchenko, M., et al. (2024). <a href=\"https://arxiv.org/abs/2404.02151\"><em>Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks</em></a>. arXiv:2404.02151.</p>\n<p>Perez, E., Ringer, S., Lukošiūtė, K., et al. (2023). <a href=\"https://arxiv.org/abs/2310.13548\"><em>Towards Understanding Sycophancy in Language Models</em></a>. arXiv:2310.13548.</p>\n<p>Deng, Y., et al. (2023). <a href=\"https://arxiv.org/abs/2310.02446\"><em>Multilingual Jailbreak Challenges in Large Language Models</em></a>. arXiv:2310.02446.</p>\n<p>Anthropic. (2023). <a href=\"https://www.anthropic.com/news/claudes-constitution\"><em>Claude’s Constitution</em></a>. Anthropic.</p>\n<p>Anthropic. (2024). <a href=\"https://www.anthropic.com/research/constitutional-classifiers\"><em>Constitutional Classifiers: Defending Against Universal Jailbreaks</em></a>. Anthropic.</p>\n",
      "date_published": "2025-12-29T00:00:00.000Z",
      "date_modified": "2025-12-29T00:00:00.000Z",
      "tags": [
        "Constitutional AI",
        "Claude",
        "Anthropic",
        "AI Safety",
        "LLM Deployment",
        "Enterprise AI"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/research/constitutional-ai/",
            "title": "Constitutional AI: A Guide for Claude Users"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/business/ai-2026-anno-resa-conti/",
      "url": "https://ireneburresi.dev/blog/business/ai-2026-anno-resa-conti/",
      "title": "AI 2026: perché Stanford parla di resa dei conti",
      "summary": "Il 42% delle aziende ha già chiuso progetti AI: per Stanford HAI il 2026 premierà solo chi dimostra ROI misurabile, vendor affidabili e metriche trasparenti.",
      "content_html": "<h2>L’anno della resa dei conti: perché il 2026 sarà decisivo per l’AI enterprise</h2>\n<p><em>Il 42% delle aziende ha già abbandonato la maggior parte dei progetti AI. I dati dicono che il peggio potrebbe non essere finito.</em></p>\n<p><strong>TL;DR:</strong> Il 42% delle aziende ha abbandonato progetti AI nel 2025, il doppio dell’anno precedente. Stanford HAI prevede che il 2026 sarà l’anno della resa dei conti: meno hype, più richiesta di prove concrete. I dati Brynjolfsson mostrano già l’impatto occupazionale: -20% per sviluppatori junior, +8% per senior. Per chi investe, le implicazioni sono chiare: metriche definite prima del lancio, non dopo; soluzioni vendor (67% successo) vs sviluppo interno (33%); attenzione ai tempi di go-live che uccidono i progetti più della tecnologia.</p>\n<hr />\n<p>A metà dicembre 2025, <a href=\"https://hai.stanford.edu/news/stanford-ai-experts-predict-what-will-happen-in-2026\">nove faculty dello Stanford Human-Centered Artificial Intelligence</a> hanno pubblicato le loro previsioni per il 2026. Non è il solito esercizio di futurologia accademica, ma una dichiarazione collettiva con un messaggio chiaro: la festa sta finendo.</p>\n<p>James Landay, co-direttore di HAI, apre con una frase che suona quasi provocatoria in un’epoca di annunci trionfalistici: “Non ci sarà AGI quest’anno.” Il punto, però, è quello che aggiunge subito dopo: le aziende inizieranno ad ammettere pubblicamente che l’AI non ha ancora prodotto gli aumenti di produttività promessi, se non in nicchie specifiche come la programmazione e i call center. E sentiremo parlare, finalmente, di progetti falliti.</p>\n<p>Non è una previsione sul futuro. È la fotografia di qualcosa che sta già succedendo.</p>\n<hr />\n<h2>I numeri che nessuno vuole guardare</h2>\n<p>A luglio 2025, il <a href=\"https://projectnanda.org/\">MIT Project NANDA</a> ha pubblicato un report che ha generato ampio dibattito per una singola statistica: il <strong>95% dei progetti AI enterprise non genera alcun ritorno misurabile</strong>. Il numero è stato contestato, la metodologia ha i suoi limiti, la definizione di “successo” è discutibile. Ma non è un dato isolato.</p>\n<p>Nello stesso periodo, <a href=\"https://www.spglobal.com/market-intelligence/en/news-insights/research/2025/10/generative-ai-shows-rapid-growth-but-yields-mixed-results\">S&amp;P Global</a> ha rilevato che il 42% delle aziende ha abbandonato la maggior parte delle proprie iniziative AI nel 2025. Nel 2024 la percentuale era il 17%. Il tasso di abbandono, in pratica, è più che raddoppiato in un anno. In media, le organizzazioni intervistate hanno cestinato il 46% dei proof-of-concept prima che arrivassero in produzione.</p>\n<p>Secondo <a href=\"https://www.rand.org/pubs/research_reports/RRA2680-1.html\">RAND Corporation</a>, oltre l’80% dei progetti AI fallisce, il doppio del tasso di fallimento dei progetti IT tradizionali. Gartner riporta che solo il 48% dei progetti AI arriva in produzione, e oltre il 30% dei progetti GenAI verrà abbandonato dopo il proof of concept entro fine 2025.</p>\n<p>Le cause sono sempre le stesse: qualità dei dati insufficiente (43% secondo Informatica), mancanza di maturità tecnica (43%), carenza di competenze (35%). Ma sotto questi numeri c’è un pattern più profondo. Le aziende stanno scoprendo che l’AI funziona nelle demo ma non in produzione, genera entusiasmo nei pilot ma non ROI nei bilanci.</p>\n<p>Sono questi numeri a spiegare perché Stanford HAI, un’istituzione non esattamente nota per il pessimismo tecnologico, stia spostando il discorso. Non più “l’AI può fare questo?” ma “quanto bene, a quale costo, per chi?”.</p>\n<hr />\n<h2>I canarini nella miniera</h2>\n<p>Se i tassi di fallimento sono il sintomo, il lavoro di Erik Brynjolfsson offre una diagnosi più precisa. <a href=\"https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/\">“Canaries in the Coal Mine”</a>, pubblicato ad agosto 2025 dal Digital Economy Lab di Stanford, è tra gli studi più rigorosi oggi disponibili sull’impatto dell’AI sul mercato del lavoro.</p>\n<p>Il paper usa dati di payroll di ADP, il più grande fornitore di servizi di buste paga negli Stati Uniti, che copre oltre 25 milioni di lavoratori. L’obiettivo è tracciare i cambiamenti occupazionali nelle professioni esposte all’intelligenza artificiale.</p>\n<p>Quello che emerge è netto. L’occupazione per software developer tra i 22 e i 25 anni è calata del <strong>20% dal picco di fine 2022</strong>, più o meno dal lancio di ChatGPT, a luglio 2025. Non è un dato isolato: i lavoratori early-career nelle occupazioni più esposte all’AI mostrano un declino relativo del 13% rispetto ai colleghi in ruoli meno esposti.</p>\n<p>Il dato più interessante, però, è la divergenza per età. Mentre i giovani perdono terreno, i lavoratori over 30 nelle stesse categorie ad alta esposizione hanno visto una crescita occupazionale tra il 6% e il 12%. Brynjolfsson sintetizza così: “Sembra che ciò che i lavoratori giovani sanno si sovrapponga a ciò che i LLM possono rimpiazzare.”</p>\n<p>Non è un effetto uniforme, ma un riallineamento: l’AI sta erodendo le posizioni entry-level più rapidamente di quanto crei nuovi ruoli. I “canarini nella miniera”, i giovani sviluppatori e gli addetti al customer support, stanno già mostrando sintomi di un cambiamento più ampio.</p>\n<p>Quando Brynjolfsson prevede l’emergere di “dashboard economici AI” che tracciano questi spostamenti in tempo quasi reale, non sta speculando. Sta descrivendo l’infrastruttura necessaria per capire cosa sta succedendo, un’infrastruttura che oggi non esiste ma che nel 2026 potrebbe diventare urgente.</p>\n<hr />\n<h2>La divergenza tra adozione e risultati</h2>\n<p>C’è un paradosso nei dati del 2025 che merita attenzione. L’adozione dell’AI sta accelerando: secondo <a href=\"https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai\">McKinsey</a>, la percentuale di aziende che dichiarano di usare AI è passata dal 55% nel 2023 al 78% nel 2024. L’uso di GenAI in almeno una funzione aziendale è più che raddoppiato, dal 33% al 71%.</p>\n<p>Eppure, in parallelo, i tassi di abbandono dei progetti crescono invece di diminuire. S&amp;P Global mostra un salto dal 17% al 42% in un solo anno. Il report MIT NANDA parla di <em>“GenAI Divide”</em>, una divisione netta tra il 5% che estrae valore reale e il 95% che rimane fermo.</p>\n<p>Molte aziende hanno attraversato la fase dell’entusiasmo, del pilot, della demo impressionante, e poi si sono schiantate contro il muro della produzione reale. Hanno scoperto che il modello funziona in sandbox ma non con i loro dati; che l’integrazione nei workflow esistenti è più complessa del previsto; che il ROI promesso dai vendor non si materializza.</p>\n<p>Angèle Christin, sociologa della comunicazione e senior fellow di HAI, lo dice senza giri di parole: “I cartelloni pubblicitari di San Francisco, ‘AI everywhere!!! For everything!!! All the time!!!’, tradiscono un tono leggermente maniacale.” La sua previsione: vedremo più realismo su cosa possiamo aspettarci dall’AI. Non è necessariamente la bolla che scoppia, ma la bolla potrebbe smettere di gonfiarsi.</p>\n<hr />\n<h2>Il problema della misurazione</h2>\n<p>Una delle previsioni più concrete, e potenzialmente più significative, arriva ancora da Brynjolfsson. Propone l’emergere di <em>“AI economic dashboards”</em> ad alta frequenza: strumenti che tracciano, a livello di task e occupazione, dove l’AI sta aumentando la produttività, dove sta spostando lavoratori, dove sta creando nuovi ruoli.</p>\n<p>Oggi non abbiamo nulla del genere. I dati sul mercato del lavoro arrivano con mesi di ritardo. Le aziende misurano l’adozione dell’AI ma raramente l’impatto. I report di settore fotografano l’hype ma non i risultati.</p>\n<p>Se questi dashboard emergeranno davvero nel 2026, cambieranno il modo in cui parliamo di AI. Il dibattito si sposterà dal generico “l’AI ha un impatto?” a domande più precise: quanto velocemente si sta diffondendo questo impatto, chi sta restando indietro, quali investimenti complementari funzionano.</p>\n<p>È una visione ottimistica: dati migliori portano decisioni migliori. Ma è anche un’ammissione implicita: oggi stiamo navigando al buio.</p>\n<hr />\n<h2>Medicina e legal: i settori-test</h2>\n<p>Due settori emergono dalle previsioni Stanford come banco di prova particolarmente rilevante.</p>\n<p>Nigam Shah, Chief Data Scientist di Stanford Health Care, descrive un problema che chiunque lavori nel settore riconoscerà. Gli ospedali sono sommersi da startup che vogliono vendere soluzioni AI. “Ogni singola proposta può essere ragionevole, ma in aggregato sono uno tsunami di rumore.”</p>\n<p>Secondo Shah, nel 2026 emergeranno framework sistematici per valutare queste soluzioni: impatto tecnico, popolazione su cui il modello è stato addestrato, ROI sul workflow ospedaliero, soddisfazione dei pazienti, qualità delle decisioni cliniche. È un lavoro che Stanford sta già facendo internamente, ma che dovrà essere esteso a istituzioni con meno risorse tecniche.</p>\n<p>Shah segnala anche un rischio. I vendor, frustrati dai cicli decisionali lunghi degli ospedali, potrebbero iniziare ad andare direttamente agli utenti finali. Applicazioni “gratuite” per medici e pazienti che bypassano i controlli istituzionali. È già in corso: OpenEvidence per riassunti della letteratura, AtroposHealth per risposte on-demand a domande cliniche.</p>\n<p>Nel settore legale, Julian Nyarko prevede uno shift simile. Il focus si sposterà da “questo modello sa scrivere?” a questioni più operative: accuratezza, integrità delle citazioni, esposizione a violazioni del segreto professionale. Il settore sta già lavorando su benchmark specifici, come quelli basati su <em>“LLM-as-judge”</em>, framework dove un modello valuta l’output di un altro modello per task complessi come la sintesi multi-documento.</p>\n<p>Medicina e legal condividono una caratteristica: sono altamente regolamentati, con conseguenze gravi in caso di errore. Se l’AI deve dimostrare il suo valore da qualche parte, è qui che la prova sarà più dura. E più significativa.</p>\n<hr />\n<h2>Track record: quanto sono affidabili queste previsioni?</h2>\n<p>Stanford HAI pubblica previsioni annuali da alcuni anni. Ha senso chiedersi quanto siano state accurate finora.</p>\n<p>A fine 2022, Russ Altman previde per il 2023 uno <em>“shocking rollout of AI way before it’s mature or ready to go”</em>. Difficile trovare una descrizione più accurata di quello che è successo: ChatGPT, Bing Chat, Bard lanciati in successione rapida, con problemi di accuratezza, allucinazioni, incidenti imbarazzanti. Altman aveva anche previsto una “hit parade di AI che non è pronta per il prime time ma esce perché guidata da industria troppo zelante”. Esatto.</p>\n<p>Percy Liang, sempre a fine 2022, previde che il video sarebbe stato un focus del 2023 e che “potremmo arrivare al punto in cui non distingueremo se un umano o un computer ha generato un video”. Era un anno in anticipo (Sora è arrivato a febbraio 2024) ma la direzione era corretta.</p>\n<p>Per il 2024, Altman previde un “rise of agents” e passi verso sistemi multimediali. Entrambi si sono verificati, anche se gli agent sono ancora più promessa che realtà in produzione.</p>\n<p>Non tutte le previsioni si sono avverate. Le aspettative su un’azione legislativa del Congresso USA sono rimaste deluse: l’Executive Order di Biden c’è stato, ma la nuova amministrazione ha cambiato direzione. Nel complesso, però, il track record di Stanford HAI è ragionevole: tendono a essere cauti piuttosto che entusiasti, e le previsioni tecniche sono generalmente fondate.</p>\n<p>Questo non garantisce che le previsioni 2026 si avvereranno. Ma significa che vale la pena prenderle sul serio.</p>\n<hr />\n<h2>Cosa significa per chi deve decidere</h2>\n<p>Se le previsioni Stanford e i dati sui failure rate convergono su qualcosa, è questo: il 2026 sarà l’anno in cui l’AI enterprise dovrà mostrare risultati, non demo.</p>\n<p>Per chi gestisce budget tecnologici, le implicazioni sono concrete.</p>\n<p>Sul fronte delle <strong>metriche</strong>, i progetti AI devono avere criteri di successo definiti prima del lancio, non dopo. Non “esploriamo l’AI per il customer service” ma “riduciamo del 15% il tempo medio di risoluzione ticket entro 6 mesi, con costo per interazione inferiore a X”. I progetti senza metriche chiare hanno probabilità sproporzionata di finire nel 42% degli abbandoni.</p>\n<p>Sul fronte <strong>make-or-buy</strong>, il report MIT NANDA indica che le soluzioni acquistate da vendor specializzati hanno un tasso di successo del 67%, contro il 33% degli sviluppi interni. Non significa che lo sviluppo interno sia sempre sbagliato, ma richiede competenze, dati e infrastruttura che molte organizzazioni sopravvalutano di avere.</p>\n<p>Sul <strong>timing</strong>, le imprese mid-market passano dal pilot alla produzione in circa 90 giorni, secondo lo stesso report. Le grandi enterprise impiegano nove mesi o più. La burocrazia uccide i progetti AI più della tecnologia.</p>\n<p>Infine, una questione di <strong>onestà</strong>. L’economia-ombra dell’AI (il 90% dei dipendenti usa strumenti personali come ChatGPT per il lavoro, secondo MIT NANDA) indica che gli individui sanno già dove l’AI funziona meglio delle iniziative enterprise ufficiali. Invece di combatterla, le organizzazioni potrebbero imparare da questa adozione spontanea.</p>\n<hr />\n<h2>Cosa manca</h2>\n<p>Le previsioni Stanford hanno punti ciechi evidenti.</p>\n<p>Nessuno degli esperti menziona il consumo energetico e l’impatto ambientale dell’AI. Christin lo accenna (“costi ambientali tremendi dell’attuale build-out”) ma il tema non viene sviluppato. Eppure i data center AI stanno diventando uno dei maggiori consumatori di energia al mondo, e questo entrerà nel calcolo del ROI prima o poi.</p>\n<p>Manca anche una discussione seria sulla concentrazione del mercato. I modelli frontier sono sviluppati da un pugno di aziende. Questo crea dipendenze, influenza i prezzi, determina chi può competere. È un fattore strategico che chiunque pianifichi investimenti AI dovrebbe considerare.</p>\n<p>Landay accenna alla <em>“AI sovereignty”</em>, i paesi che vogliono indipendenza dai provider americani, ma il tema resta superficiale. È un’area in rapida evoluzione, con implicazioni geopolitiche significative, che meriterebbe un’analisi più approfondita.</p>\n<hr />\n<h2>Un cambio di tono</h2>\n<p>Più delle singole previsioni, quello che colpisce dell’articolo Stanford è il tono. Non c’è l’entusiasmo tipico del settore. Non ci sono promesse di trasformazione imminente. C’è cautela, richiesta di prove, enfasi sulla misurazione.</p>\n<p>Quando il co-direttore di un istituto AI di Stanford apre dicendo “non ci sarà AGI quest’anno”, sta prendendo posizione contro una narrativa dominante. Quando economisti come Brynjolfsson pubblicano dati sui lavoratori giovani che perdono occupazione, stanno documentando costi, non solo benefici.</p>\n<p>Questo non significa che l’AI sia sopravvalutata o che i progetti debbano fermarsi. Significa che la fase dell’adozione acritica sta finendo. Chi continuerà a investire dovrà farlo con aspettative calibrate, metriche definite, capacità di ammettere il fallimento quando si verifica.</p>\n<p>Il 2026, se queste previsioni sono corrette, sarà l’anno in cui scopriremo quali progetti AI erano solidi e quali erano costruiti sull’hype. Per molte organizzazioni sarà una scoperta dolorosa. Per altre, un’opportunità: chi ha già imparato a misurare, a iterare, a distinguere il valore dalla promessa avrà un vantaggio competitivo che l’entusiasmo generico non può comprare.</p>\n<hr />\n<h2>Fonti</h2>\n<p>Brynjolfsson, E., Chandar, B., &amp; Chen, R. (2025). <a href=\"https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/\"><em>Canaries in the Coal Mine: Six Facts about the Recent Employment Effects of AI</em></a>. Stanford Digital Economy Lab.</p>\n<p>McKinsey &amp; Company. (2024). <a href=\"https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai\"><em>The State of AI in 2024: Gen AI adoption spikes and starts to generate value</em></a>. McKinsey Global Institute.</p>\n<p>MIT Project NANDA. (2025). <a href=\"https://projectnanda.org/\"><em>The GenAI Divide 2025</em></a>. Massachusetts Institute of Technology.</p>\n<p>RAND Corporation. (2024). <a href=\"https://www.rand.org/pubs/research_reports/RRA2680-1.html\"><em>The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed</em></a>. RAND Research Reports.</p>\n<p>S&amp;P Global Market Intelligence. (2025, October). <a href=\"https://www.spglobal.com/market-intelligence/en/news-insights/research/2025/10/generative-ai-shows-rapid-growth-but-yields-mixed-results\"><em>Generative AI Shows Rapid Growth but Yields Mixed Results</em></a>. S&amp;P Global.</p>\n<p>Stanford HAI. (2025, December). <a href=\"https://hai.stanford.edu/news/stanford-ai-experts-predict-what-will-happen-in-2026\"><em>Stanford AI Experts Predict What Will Happen in 2026</em></a>. Stanford Human-Centered Artificial Intelligence.</p>\n",
      "date_published": "2025-12-20T00:00:00.000Z",
      "date_modified": "2025-12-29T00:00:00.000Z",
      "tags": [
        "Stanford HAI",
        "AI 2026",
        "Enterprise AI",
        "Market Analysis",
        "AI Predictions"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/business/ai-2026-anno-resa-conti/",
            "title": "AI 2026: Why Stanford Talks About a Reckoning"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/business/misurare-ia/",
      "url": "https://ireneburresi.dev/blog/business/misurare-ia/",
      "title": "Metriche AI che contano davvero",
      "summary": "Il 60% dei manager ha KPI sbagliati perché misura ore risparmiate, non impatto: segmenta per ruolo, separa uso augmentativo da sostitutivo e monitora weekly.",
      "content_html": "<h2>Il paradosso della misurazione</h2>\n<p><em>Il 60% dei manager ammette di aver bisogno di KPI migliori per l’AI. Solo il 34% sta facendo qualcosa. Nel frattempo, i dati che davvero contano esistono già, ma nessuno li sta guardando.</em></p>\n<p><strong>TL;DR:</strong> Le aziende misurano attività (ore risparmiate, task automatizzati) invece di impatto. Un paper Stanford su 25 milioni di lavoratori mostra come fare: segmentare per ruolo e seniority, distinguere uso sostitutivo da augmentativo, usare gruppi di controllo, monitorare in tempo reale. Chi adotta questi principi avrà un vantaggio informativo su chi continua a tracciare metriche di vanità.</p>\n<hr />\n<p>I report sull’adozione dell’AI nel 2025 raccontano una storia strana. Da un lato, le aziende dichiarano di misurare tutto: deployment completati, ore risparmiate, ticket gestiti, costi ridotti. Dall’altro, il <a href=\"https://www.spglobal.com/market-intelligence/en/news-insights/research/2025/10/generative-ai-shows-rapid-growth-but-yields-mixed-results\">42% sta abbandonando la maggior parte dei propri progetti AI</a>, più del doppio rispetto all’anno precedente. Il <strong>95% dei progetti pilota</strong>, secondo <a href=\"https://projectnanda.org/\">MIT NANDA</a>, non genera alcun impatto misurabile sul conto economico.</p>\n<p>Se misuriamo così tanto, perché falliamo così spesso?</p>\n<p>Il problema è che stiamo misurando le cose sbagliate. Le metriche tipiche dell’AI enterprise (tempo risparmiato per task, volume di interazioni automatizzate, costo per query) catturano l’attività, non l’impatto. Dicono se il sistema funziona tecnicamente, non se sta creando o distruggendo valore.</p>\n<p>Un paper pubblicato ad agosto 2025 dal Digital Economy Lab di Stanford offre un approccio diverso a cosa significhi misurare davvero l’AI. E le implicazioni per chi gestisce investimenti tecnologici sono concrete.</p>\n<hr />\n<h2>Il problema delle metriche di vanità</h2>\n<p>La maggior parte delle dashboard AI aziendali traccia varianti delle stesse metriche: quante richieste processate, quanto tempo risparmiato per interazione, quale percentuale di task automatizzati. Sono numeri che crescono facilmente e si presentano bene nelle slide. Il loro difetto è fondamentale: non dicono nulla sull’impatto reale sul business.</p>\n<p>Un chatbot che gestisce 10.000 ticket al mese sembra un successo. Ma se quei ticket richiedono comunque escalation umana nel 40% dei casi, se la customer satisfaction è calata, se i clienti più profittevoli stanno migrando ai competitor, il numero di ticket gestiti non cattura nulla di tutto questo.</p>\n<p>Il report di S&amp;P Global sul 2025 documenta esattamente questo pattern: aziende che hanno accumulato “deployment” e “sperimentazioni completate” solo per scoprire, mesi dopo, che il ROI non si materializzava. I costi erano reali e immediati; i benefici vaghi e sempre rimandati al prossimo trimestre.</p>\n<p>Secondo un’analisi MIT Sloan, il <strong>60% dei manager riconosce di aver bisogno di KPI migliori</strong> per l’AI. Ma solo il 34% sta effettivamente usando l’AI per creare nuovi indicatori di performance. La maggioranza continua a usare le stesse metriche che usava per i progetti IT tradizionali, metriche progettate per software deterministico, non per sistemi probabilistici che interagiscono con processi umani complessi.</p>\n<hr />\n<h2>Cosa significa misurare sul serio</h2>\n<p><a href=\"https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/\">“Canaries in the Coal Mine”</a>, il paper di Erik Brynjolfsson, Bharat Chandar e Ruyu Chen pubblicato dallo Stanford Digital Economy Lab, non parla di come le aziende dovrebbero misurare l’AI. Parla di come l’AI sta cambiando il mercato del lavoro. Ma il metodo che usa è esattamente quello che manca alla maggior parte delle valutazioni enterprise.</p>\n<p>Gli autori hanno ottenuto accesso ai dati di payroll di ADP, il più grande processore di buste paga negli Stati Uniti, con record mensili di oltre 25 milioni di lavoratori. Non sondaggi, non self-report, non stime: dati amministrativi granulari su chi viene assunto, chi lascia, quanto guadagna, in quale ruolo, in quale azienda.</p>\n<p>Hanno poi incrociato questi dati con due metriche di esposizione all’AI: una basata su analisi teorica dei task (quali mansioni sono tecnicamente automatizzabili) e una basata su dati reali di utilizzo (come le persone usano effettivamente Claude, il modello di Anthropic, nel lavoro quotidiano).</p>\n<p>Il risultato è una radiografia dell’impatto dell’AI con una granularità senza precedenti. Non il generico ‘l’AI sta cambiando il lavoro’, ma numeri precisi: l’occupazione per sviluppatori software tra 22 e 25 anni è calata del <strong>20% dal picco di fine 2022</strong>, mentre per gli over-35 nelle stesse mansioni è cresciuta dell’8%. Nelle professioni dove l’uso dell’AI è prevalentemente sostitutivo, i giovani perdono occupazione; dove è prevalentemente augmentativo, non c’è declino.</p>\n<p>Questo tipo di misurazione dovrebbe informare le decisioni aziendali sull’AI. Non perché le aziende debbano replicare esattamente questo studio, ma perché illustra tre principi che la maggior parte delle metriche enterprise ignora completamente.</p>\n<hr />\n<h2>Misurare gli effetti differenziali, non le medie</h2>\n<p>Il dato aggregato nasconde più di quanto riveli. Se misuri solo “ore risparmiate dall’AI”, non vedi chi sta risparmiando quelle ore e chi sta perdendo il lavoro. Se misuri solo “ticket automatizzati”, non vedi quali clienti ricevono servizio peggiore.</p>\n<p>Il paper Stanford mostra che l’impatto dell’AI è radicalmente diverso per fasce d’età. I lavoratori tra 22 e 25 anni nelle professioni esposte hanno visto un declino occupazionale del 13% rispetto ai colleghi in ruoli meno esposti. I lavoratori over 30 nelle stesse professioni hanno visto crescita. L’effetto medio è quasi nullo, ma l’effetto reale è una redistribuzione massiva.</p>\n<p>Per un CFO, le metriche aggregate di produttività possono mascherare costi nascosti. Se l’AI sta aumentando l’output del team senior mentre rende impossibile assumere e formare junior, il gain di breve periodo potrebbe trasformarsi in un problema di pipeline di talenti nel medio. Il paper lo chiama <em>“paradosso dell’apprendistato”</em>: le aziende smettono di assumere entry-level perché l’AI fa quei task meglio, ma senza entry-level oggi non avranno senior domani.</p>\n<p>La conseguenza operativa è che ogni dashboard AI dovrebbe segmentare l’impatto per ruolo, seniority, team, tipologia di cliente. Un singolo numero di “produttività” è quasi sempre fuorviante.</p>\n<hr />\n<h2>Distinguere uso sostitutivo da uso augmentativo</h2>\n<p>Una delle scoperte più rilevanti del paper riguarda la differenza tra uso sostitutivo e uso augmentativo dell’AI. Gli autori hanno usato i dati di Anthropic per classificare come le persone usano effettivamente i modelli linguistici: per generare output finali (sostituzione) o per iterare, apprendere, validare (augmentazione).</p>\n<p>Nelle professioni dove l’uso è prevalentemente sostitutivo, l’occupazione giovanile è crollata. Dove l’uso è prevalentemente augmentativo, non si osserva alcun declino; anzi, alcune di queste categorie mostrano crescita sopra la media.</p>\n<p>Non tutti i “deployment” sono uguali. Un sistema che genera automaticamente report finanziari sostituisce lavoro umano in modo diverso da uno che aiuta gli analisti a esplorare scenari. Le metriche dovrebbero catturare questa distinzione: classificare ogni applicazione AI come prevalentemente sostitutiva o augmentativa, tracciare separatamente l’impatto su headcount, skill mix, capacità di formazione interna. I sistemi augmentativi potrebbero avere ROI meno immediato ma effetti più sostenibili.</p>\n<hr />\n<h2>Controllare per gli shock esterni</h2>\n<p>Uno degli aspetti metodologici più sofisticati del paper Stanford è l’uso di effetti fissi impresa-tempo. In pratica, gli autori confrontano lavoratori all’interno della stessa azienda nello stesso mese, isolando così l’effetto dell’esposizione AI da qualsiasi altro fattore che colpisce l’azienda: tagli di budget, rallentamento settoriale, cambi di strategia.</p>\n<p>Il risultato: anche controllando per tutti questi fattori, i giovani nelle mansioni esposte all’AI mostrano un declino relativo del <strong>16%</strong> rispetto ai colleghi in mansioni non esposte nella stessa azienda.</p>\n<p>Questo tipo di rigore è raro nelle valutazioni aziendali. Quando un progetto AI viene lanciato e i costi calano, è facile attribuire il merito all’AI. Ma forse i costi sarebbero calati comunque per fattori stagionali. Forse il team stava già ottimizzando prima del lancio. Forse il confronto è con un periodo anomalo.</p>\n<p>La soluzione è definire baseline e gruppi di controllo prima del lancio. Non confrontare “prima vs dopo” ma “trattati vs non trattati” nello stesso periodo. Usare A/B test dove possibile, o almeno confronti con team, regioni o segmenti che non hanno adottato l’AI.</p>\n<hr />\n<h2>Verso dashboard economici ad alta frequenza</h2>\n<p>Nelle sue previsioni per il 2026, Brynjolfsson ha proposto l’idea di <em>“AI economic dashboards”</em>, strumenti che tracciano in tempo quasi reale l’impatto dell’AI sull’economia, aggiornati mensilmente invece che con i ritardi tipici delle statistiche ufficiali.</p>\n<p>È una proposta ambiziosa a livello macro. Ma la logica sottostante è applicabile a livello aziendale: smettere di aspettare report trimestrali per capire se l’AI sta funzionando e costruire invece sistemi di monitoraggio continuo che catturano gli effetti man mano che si manifestano.</p>\n<p>La maggior parte dei progetti AI viene valutata come un investimento tradizionale: business case ex-ante, review periodiche, post-mortem finale. Ma l’AI non si comporta come un asset tradizionale. I suoi effetti sono distribuiti, emergenti, spesso inattesi. Un sistema di monitoraggio continuo può catturare derive prima che diventino problemi.</p>\n<p>In pratica, questo significa lavorare con dati in tempo reale invece che retrospettivi. Se il sistema di payroll può dirvi oggi quante persone sono state assunte ieri in ogni ruolo, potete tracciare l’effetto dell’AI sull’organico con lag di giorni, non mesi. Lo stesso vale per ticket gestiti, vendite chiuse, errori rilevati.</p>\n<p>Un altro principio chiave: privilegiare metriche leading rispetto a quelle lagging. Il tasso di utilizzo effettivo (quanti dipendenti usano davvero lo strumento AI ogni giorno) è un indicatore anticipatore. Se cala, ci sono problemi prima che si vedano nei numeri di produttività.</p>\n<p>Come il paper Stanford segmenta per età, le dashboard aziendali dovrebbero segmentare per ruolo, tenure, performance pregressa. L’AI potrebbe aiutare i top performer mentre danneggia gli altri, o viceversa.</p>\n<p>Servono anche confronti interni: team che hanno adottato l’AI vs team che non l’hanno fatto, periodi con feature attiva vs periodi con feature disattivata. Questi confronti sono più informativi dei trend temporali puri.</p>\n<hr />\n<h2>Il costo del non misurare</h2>\n<p>C’è un argomento economico diretto per investire in misurazione migliore. Il 42% delle aziende che ha abbandonato progetti AI nel 2025 ha speso budget, tempo, attenzione manageriale per poi non ottenere nulla. Con metriche migliori, alcuni di quei progetti sarebbero stati fermati prima. Altri sarebbero stati corretti in corsa. Altri ancora non sarebbero mai partiti.</p>\n<p>Il report MIT NANDA stima che le aziende stiano spendendo <strong>30-40 miliardi di dollari all’anno</strong> in AI generativa. Se il 95% non genera ROI misurabile, stiamo parlando di decine di miliardi bruciati. Non perché la tecnologia non funzioni, ma perché viene applicata male, misurata peggio, e quindi non corretta.</p>\n<p>Il paper Brynjolfsson offre un modello di cosa potrebbe essere la misurazione dell’AI. Dati amministrativi invece di sondaggi. Granularità demografica invece di medie aggregate. Controlli rigorosi invece di confronti ingenui. Monitoraggio continuo invece di valutazioni puntuali.</p>\n<p>Nessuna azienda ha le risorse di Stanford o l’accesso ai dati di ADP. Ma i principi sono trasferibili: segmentare, distinguere uso sostitutivo da uso augmentativo, controllare per fattori confondenti, monitorare in tempo reale. Chi adotta questi principi avrà un vantaggio informativo su chi continua a tracciare deployment e ore risparmiate.</p>\n<hr />\n<h2>Fonti</h2>\n<p>Brynjolfsson, E., Chandar, B., &amp; Chen, R. (2025). <a href=\"https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/\"><em>Canaries in the Coal Mine: Six Facts about the Recent Employment Effects of AI</em></a>. Stanford Digital Economy Lab.</p>\n<p>Deloitte AI Institute. (2025). <a href=\"https://www2.deloitte.com/us/en/pages/consulting/articles/state-of-generative-ai-in-enterprise.html\"><em>State of Generative AI in the Enterprise</em></a>. Deloitte.</p>\n<p>MIT Project NANDA. (2025). <a href=\"https://projectnanda.org/\"><em>The GenAI Divide 2025</em></a>. Massachusetts Institute of Technology.</p>\n<p>MIT Sloan Management Review. (2024). <a href=\"https://sloanreview.mit.edu/projects/the-future-of-strategic-measurement-enhancing-kpis-with-ai/\"><em>The Future of Strategic Measurement: Enhancing KPIs With AI</em></a>. MIT Sloan.</p>\n<p>S&amp;P Global Market Intelligence. (2025, October). <a href=\"https://www.spglobal.com/market-intelligence/en/news-insights/research/2025/10/generative-ai-shows-rapid-growth-but-yields-mixed-results\"><em>Generative AI Shows Rapid Growth but Yields Mixed Results</em></a>. S&amp;P Global.</p>\n",
      "date_published": "2025-12-20T00:00:00.000Z",
      "date_modified": "2025-12-29T00:00:00.000Z",
      "tags": [
        "KPI",
        "Metrics",
        "AI Measurement",
        "Enterprise AI",
        "ROI"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/business/misurare-ia/",
            "title": "You're Measuring AI Wrong"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/governance/ia-sovranit%C3%A0/",
      "url": "https://ireneburresi.dev/blog/governance/ia-sovranit%C3%A0/",
      "title": "Sovranità AI: quale modello per l'Europa",
      "summary": "Cloud sovrani, modelli nazionali e provider USA definiscono tre idee di sovranità AI. L'Europa deve scegliere quale infrastruttura e governance finanziare.",
      "content_html": "<h2>Il nuovo ordine dell’AI globale</h2>\n<p><em>Tra LLM nazionali, infrastrutture locali e dipendenza dai provider americani, il concetto di sovranità AI sta ridefinendo la geopolitica tecnologica. L’Europa è al bivio tra tre modelli incompatibili.</em></p>\n<p>Nel maggio 2025, il presidente Trump ha visitato il Golfo Persico per annunciare accordi che cambiano la geografia dell’AI globale. Gli Emirati Arabi Uniti costruiranno un campus di data center da 5 gigawatt, il più grande fuori dagli Stati Uniti. L’Arabia Saudita, attraverso HUMAIN (la nuova entità AI del fondo sovrano PIF), ha ottenuto accesso a centinaia di migliaia di chip Nvidia di ultima generazione. Il Qatar ha appena lanciato Qai con un investimento da 20 miliardi di dollari in partnership con Brookfield.</p>\n<p>Mentre i paesi del Golfo costruiscono infrastruttura AI con capitali petroliferi, in Europa il dibattito sulla “sovranità AI” procede su binari diversi. Mistral e Aleph Alpha sviluppano modelli, SAP lancia l’EU AI Cloud, Francia e Germania annunciano partnership per “AI e cloud sovrani” nel settore pubblico. Ma la domanda di fondo resta senza risposta chiara: cosa significa davvero sovranità AI, e quale modello l’Europa sta realmente perseguendo?</p>\n<hr />\n<h2>Quattro definizioni di sovranità</h2>\n<p>Il termine “sovereign AI” viene usato con significati diversi a seconda di chi parla. L’ambiguità non è casuale: permette a governi, vendor e istituzioni di rivendicare impegni sulla sovranità senza chiarire cosa intendono concretamente.</p>\n<p>L’Atlantic Council propone quattro componenti distinte.</p>\n<p>La prima è la <strong>legalità</strong>: i sistemi AI devono rispettare le leggi e i regolamenti applicabili nel territorio dove operano. È la componente più debole, perché non richiede infrastruttura o modelli propri, solo compliance.</p>\n<p>La seconda è la <strong>competitività economica</strong>: lo sviluppo AI deve creare valore per l’economia nazionale, idealmente costruendo un ecosistema industriale locale. Richiede investimenti in startup, formazione, ricerca.</p>\n<p>La terza riguarda la <strong>sicurezza nazionale</strong>: le applicazioni AI in infrastrutture critiche, difesa e funzioni strategiche richiedono protezioni aggiuntive contro interferenze esterne. Implica controllo su dove risiedono dati e modelli sensibili.</p>\n<p>La quarta è l’<strong>allineamento valoriale</strong>: i modelli devono riflettere valori nazionali o regionali, non quelli impliciti nei dati di training (prevalentemente anglofoni e occidentali). È la componente più controversa. Chi decide quali valori, e come si implementano tecnicamente?</p>\n<p>Queste quattro dimensioni non sono sempre compatibili. Un paese può raggiungere legalità e competitività usando modelli americani su infrastruttura americana: basta rispettare le regole locali. Ma non raggiungerà sicurezza nazionale né allineamento valoriale, perché i modelli restano black box sviluppate altrove con dati altrui.</p>\n<hr />\n<h2>Due modelli operativi</h2>\n<p>Al di là delle definizioni, esistono due approcci pratici alla sovranità AI, ciascuno con trade-off specifici.</p>\n<h3>LLM nazionali</h3>\n<p>Il primo approccio consiste nello sviluppare modelli fondazionali propri, addestrati su dati locali, ottimizzati per lingue e contesti specifici. È la strada scelta da Singapore con SEA-LION (modello per le lingue del Sud-Est asiatico), dall’Italia con Minerva e Velvet, dalla Corea del Sud con il programma nazionale che coinvolge SK Telecom, Naver e Samsung.</p>\n<p>Il vantaggio è il controllo completo sui dati di training, la possibilità di incorporare conoscenza locale (leggi, dialetti, norme culturali), l’indipendenza dalle decisioni dei provider esteri su censura e alignment.</p>\n<p>I limiti sono altrettanto evidenti. Addestrare un modello frontier richiede centinaia di milioni di dollari solo in compute. I modelli risultanti sono tipicamente inferiori ai frontier americani su benchmark generali: SEA-LION v1 perde nettamente contro GPT-4 in performance complessiva, anche se eccelle nell’analisi del sentiment per le lingue del Sud-Est asiatico. E resta la dipendenza da hardware (Nvidia) e spesso da infrastruttura cloud (AWS, Azure) per il training stesso.</p>\n<p>Un ricercatore di AI Singapore lo ha ammesso candidamente: il modello Falcon degli Emirati è stato addestrato su infrastruttura Amazon Web Services. SEA-LION dipende da GitHub (Microsoft), Hugging Face (USA) e IBM per la distribuzione. La sovranità del modello non implica sovranità dell’infrastruttura.</p>\n<h3>Infrastruttura locale con modelli terzi</h3>\n<p>Il secondo approccio prevede di costruire data center nazionali, GPU cluster, cloud sovrani, ma usare modelli sviluppati altrove (OpenAI, Anthropic, Meta) eseguiti localmente. È la strada degli Emirati con G42: infrastruttura massiccia, partnership con Microsoft e OpenAI, modelli americani che girano su suolo emiratino.</p>\n<p>Il vantaggio principale è che i dati non lasciano il territorio nazionale. Le query degli utenti locali non transitano per server esteri. Per settori regolamentati (sanità, finanza, difesa), questo può essere sufficiente a soddisfare requisiti di data residency.</p>\n<p>Il limite è che il modello resta una black box. Il provider estero controlla gli aggiornamenti, le policy di safety, cosa il modello può o non può fare. Un report di HSToday lo sintetizza brutalmente: “Se i model weights escono, il tuo giudizio è letteralmente esogeno.” C’è poi il rischio di data poisoning: bastano 250 documenti per compromettere un modello durante il pre-training, secondo ricerche recenti.</p>\n<hr />\n<h2>Il caso del Golfo: infrastruttura come asset geopolitico</h2>\n<p>I paesi del Golfo Persico stanno perseguendo una variante del secondo modello, ma con una scala e un’ambizione che merita attenzione separata.</p>\n<p>Gli Emirati, attraverso G42 e Khazna Data Centers, stanno costruendo quella che sarà la più grande concentrazione di capacità compute AI fuori dagli Stati Uniti. Il campus di Abu Dhabi avrà capacità fino a 5 gigawatt. Per confronto, l’intera capacità data center europea nei mercati FLAP (Francoforte, Londra, Amsterdam, Parigi) è stimata intorno ai 10 gigawatt totali. G42 ha ottenuto una quota garantita di 500.000 chip Nvidia all’anno, di cui l’80% andrà a servire clienti americani e il 20% resterà per uso locale.</p>\n<p>L’Arabia Saudita, attraverso HUMAIN, sta costruendo data center con capacità prevista di 500 megawatt e centinaia di migliaia di chip Nvidia. Il primo deployment include 18.000 chip di ultima generazione per un supercomputer saudita. Google Cloud e il fondo sovrano PIF hanno annunciato una partnership da 10 miliardi di dollari per un hub AI globale.</p>\n<p>Il Qatar ha lanciato Qai con 20 miliardi di dollari in partnership con Brookfield, più un investimento separato in Anthropic.</p>\n<p>Non sono progetti di sovranità nel senso europeo del termine. Sono progetti di posizionamento: i paesi del Golfo vogliono diventare hub infrastrutturali per l’AI globale, fornendo compute a basso costo (grazie al capitale dei fondi sovrani) a paesi emergenti che non possono permettersi infrastruttura propria. Come nota Foreign Policy, “l’essenza della sovereign AI per il Golfo è fornire backend compute per paesi che vogliono usare AI ma non hanno capacità di training e deployment proprie”.</p>\n<p>Il rischio, dal punto di vista statunitense, è la diversione di GPU verso la Cina. Ma i deal recenti includono clausole che legano il compute del Golfo allo “stack americano”: i chip restano sotto controllo di hyperscaler USA, i modelli sono americani, le regole operative sono concordate bilateralmente.</p>\n<hr />\n<h2>L’Europa: tre strade, nessuna scelta</h2>\n<p>L’Europa sta perseguendo simultaneamente approcci diversi senza una strategia unificata. Il risultato è frammentazione.</p>\n<h3>I campioni nazionali</h3>\n<p><strong>Mistral AI</strong> (Francia) è il caso più visibile. Fondata nel 2023 da ex-ricercatori di Google DeepMind e Meta, ha raccolto oltre 2,8 miliardi di euro, incluso un round da 1,7 miliardi nel settembre 2025 guidato da ASML e Nvidia. I suoi modelli open-weight sono competitivi con i frontier americani su alcuni benchmark (Mistral Large 2 è nono globale nell’uso di tool per agent). La strategia è esplicita: modelli aperti che permettono customizzazione locale, allineamento con le regole europee (AI Act), deployment on-premise o edge.</p>\n<p>Ma Mistral ha investitori americani (a16z, Lightspeed) e partnership con Microsoft. Quanto è “sovrana” un’azienda che dipende da venture capital americano per crescere?</p>\n<p><strong>Aleph Alpha</strong> (Germania) ha scelto un posizionamento diverso: meno performance frontier, più explainability e deployment in settori regolamentati. La piattaforma PhariaAI supporta deployment on-premise, air-gapped, ibridi. I clienti includono l’Agenzia Federale per l’Impiego tedesca e BWI (IT della Bundeswehr). Ha raccolto circa 500 milioni di euro, quasi interamente da investitori europei (Bosch Ventures, Schwarz Group, SAP).</p>\n<p>Il trade-off è evidente: Aleph Alpha è più “sovrana” nel funding ma meno competitiva nei benchmark. Se il gap con i modelli frontier si allarga troppo, le aziende europee potrebbero essere costrette a scegliere tra compliance e competitività.</p>\n<h3>Le partnership istituzionali</h3>\n<p>A novembre 2025, Francia e Germania hanno annunciato una partnership con Mistral e SAP per sviluppare “cloud e AI sovrani” per il settore pubblico. SAP ha lanciato l’EU AI Cloud, integrando modelli di Mistral e Aleph Alpha nel suo Business Technology Platform con garanzie di data residency europea.</p>\n<p>Queste iniziative rispondono a esigenze reali. Il settore pubblico europeo ha requisiti di compliance che rendono problematico l’uso di modelli americani su infrastruttura americana. Ma restano progetti verticali, non una strategia industriale.</p>\n<h3>GAIA-X e l’infrastruttura federata</h3>\n<p>GAIA-X, lanciato nel 2020 da Francia e Germania, doveva essere “l’Airbus del cloud”, un’infrastruttura federata europea alternativa agli hyperscaler americani. A fine 2025, il bilancio è misto.</p>\n<p>Sul lato positivo, il framework esiste. Ci sono oltre 180 data space settoriali in sviluppo. Il Trust Framework 3.0 (“Danube”) è stato rilasciato. Progetti come Catena-X (automotive) dimostrano che la condivisione dati basata su standard europei è tecnicamente fattibile.</p>\n<p>Sul lato negativo, GAIA-X non è un cloud provider. Non compete con AWS, Azure o Google Cloud. Il mercato cloud europeo resta dominato al 70% da hyperscaler americani. Alcuni membri fondatori europei hanno lasciato il progetto. Il co-fondatore di NextCloud ha accusato GAIA-X di essere stato “diluito” e “sabotato dall’interno” dagli hyperscaler stessi, che sono membri dell’associazione.</p>\n<p>Un’analisi di STL Partners è brutale: “GAIA-X resta più un simbolo politico che un disruptor di mercato. Realisticamente, colmare il gap richiederebbe investimenti coordinati EU nell’ordine di 500-700 miliardi di euro, una scala non attualmente all’orizzonte.”</p>\n<hr />\n<h2>L’intersezione con l’AI Act</h2>\n<p>L’EU AI Act, entrato progressivamente in vigore dal febbraio 2025, crea obblighi che si intersecano con la sovranità AI in modi specifici.</p>\n<p>Sul fronte <strong>data residency e training data</strong>, l’AI Act non impone esplicitamente che i dati restino in Europa, ma le regole sulla trasparenza dei dati di training (Template for public summary, rilasciato a luglio 2025) richiedono disclosure dettagliata delle fonti. Per sistemi ad alto rischio, le valutazioni d’impatto sui diritti fondamentali possono richiedere accesso ai dataset, cosa difficile se sono su server americani soggetti a leggi americane.</p>\n<p>Per quanto riguarda <strong>GPAI e rischio sistemico</strong>, i provider di General-Purpose AI con rischio sistemico (definito come modelli addestrati con compute superiore a 10^25 FLOP) devono rispettare obblighi aggiuntivi di sicurezza, testing e incident reporting. I principali modelli frontier (GPT-4, Claude, Gemini) rientrano in questa categoria. Il Code of Practice rilasciato a luglio 2025 e firmato da Mistral, Aleph Alpha, OpenAI, IBM e altri offre un framework volontario di compliance.</p>\n<p>C’è poi la questione <strong>audit e accesso</strong>: l’AI Act prevede che le autorità nazionali possano richiedere accesso a modelli per verifiche. Per modelli sviluppati e hostati fuori dall’UE, questo crea tensioni giurisdizionali irrisolte.</p>\n<p>Il <strong>Digital Omnibus</strong>, proposto dalla Commissione a novembre 2025, potrebbe cambiare significativamente il quadro. Alcune parti dell’AI Act e del GDPR potrebbero essere ammorbidite per ridurre il carico di compliance sulle PMI. I critici sostengono che questo indebolisce la posizione europea proprio mentre la sovranità AI diventa critica. Come nota un analista: “Se l’Europa ha la migliore regolamentazione ma nessuna azienda europea, non ha vinto molto.”</p>\n<hr />\n<h2>Il rischio della bolla infrastrutturale</h2>\n<p>James Landay, co-direttore di Stanford HAI, nelle sue previsioni per il 2026 ha inserito una nota di cautela sugli investimenti in data center AI: “A un certo punto, non puoi impegnare tutti i soldi del mondo su una cosa sola. Sembra una bolla molto speculativa.”</p>\n<p>I numeri sono impressionanti. I quattro hyperscaler americani (Amazon, Microsoft, Google, Meta) spenderanno circa 325 miliardi di dollari in capex infrastrutturale nel solo 2025, più dell’intero PIL di paesi come Finlandia o Cile. Il Golfo sta aggiungendo altri 100+ miliardi. La capacità data center globale sta crescendo del 20% annuo.</p>\n<p>Ma la domanda effettiva di compute AI è ancora concentrata in pochi use case: training di modelli frontier (dominato da 5-6 lab), inferenza per chatbot consumer (dominata da OpenAI e pochi altri), e applicazioni enterprise ancora in fase sperimentale (il 42% dei progetti viene abbandonato, come documentato altrove).</p>\n<p>Se la domanda non cresce alla velocità dell’offerta, chi ha investito miliardi in GPU cluster potrebbe trovarsi con capacità inutilizzata. I paesi che hanno scommesso sulla sovranità infrastrutturale (UAE, Arabia Saudita, ma anche le iniziative europee) potrebbero scoprire di aver costruito cattedrali nel deserto.</p>\n<hr />\n<h2>Implicazioni per le decisioni aziendali</h2>\n<p>Per CTO, legal e compliance officer in Europa, la frammentazione della strategia di sovranità crea incertezza operativa. Alcune considerazioni pratiche.</p>\n<p>Il punto di partenza è <strong>mappare le dipendenze esistenti</strong>: quali modelli AI usa l’organizzazione? Dove sono hostati? Quali dati vengono inviati a provider terzi? Questa mappatura è prerequisito per qualsiasi strategia di sovranità.</p>\n<p>Serve poi <strong>distinguere requisiti reali da requisiti percepiti</strong>. Non tutti i workload richiedono sovranità piena. Per applicazioni non critiche senza dati personali sensibili, la compliance con AI Act e GDPR può essere sufficiente anche usando provider americani. Per settori regolamentati (sanità, finanza, difesa, pubblica amministrazione), i requisiti sono più stringenti.</p>\n<p>C’è da considerare il <strong>vendor lock-in</strong>. Le soluzioni “sovrane” europee (Mistral via SAP, Aleph Alpha per enterprise) offrono oggi performance inferiori ai frontier americani. Adottarle crea dipendenza da un ecosistema più piccolo. Se il gap si allarga, migrare sarà costoso.</p>\n<p>L’<strong>evoluzione normativa</strong> va monitorata con attenzione. Il Digital Omnibus potrebbe cambiare significativamente gli obblighi AI Act. Le guidelines della Commissione vengono aggiornate regolarmente. La compliance di oggi potrebbe non bastare domani, oppure potrebbe risultare eccessiva se le regole vengono ammorbidite.</p>\n<p>Vale la pena infine considerare <strong>modelli ibridi</strong>: alcuni workload su infrastruttura sovrana (dati sensibili, applicazioni critiche), altri su hyperscaler (scale, performance, costo). Questa architettura è più complessa da gestire ma può bilanciare i rischi.</p>\n<hr />\n<h2>Una scelta inevitabile</h2>\n<p>L’Europa non può perseguire simultaneamente tre strategie incompatibili: campioni nazionali che competono tra loro, infrastruttura federata che non scala, e dipendenza de facto dagli hyperscaler americani.</p>\n<p>A un certo punto sarà necessario scegliere. Il modello del Golfo (infrastruttura massiccia, capitale sovrano, partnership con provider americani) richiede risorse che l’Europa potrebbe mobilitare ma non sta mobilitando. Il modello dei campioni nazionali (Mistral, Aleph Alpha, DeepL) produce eccellenza puntuale ma non massa critica. Il modello GAIA-X (standard e interoperabilità) è necessario ma non sufficiente.</p>\n<p>Per i decisori europei, pubblici e privati, la domanda non è se la sovranità AI sia importante. Lo è. La domanda è quale livello di sovranità è realisticamente raggiungibile, a quale costo, e con quali compromessi. Finché questa domanda resta senza risposta chiara, le aziende europee navigheranno in un ambiente di incertezza strutturale, costrette a scommettere su strategie che potrebbero rivelarsi obsolete prima di essere implementate.</p>\n<hr />\n<h2>Fonti</h2>\n<ul>\n<li>Atlantic Council, “Sovereign Remedies: Between AI Autonomy and Control”, aprile 2025</li>\n<li>RAND Corporation, “At the Paris AI Summit, Europe Charts Its Course”, febbraio 2025</li>\n<li>Carnegie Endowment, “The EU’s AI Power Play: Between Deregulation and Innovation”, maggio 2025</li>\n<li>Lawfare, “Sovereign AI in a Hybrid World: National Strategies and Policy Responses”, novembre 2024</li>\n<li>NVIDIA Blog, “What is Sovereign AI?”, luglio 2025</li>\n<li>Foreign Policy, “U.S.-China AI Competition Needs Data Centers in UAE, Saudi Arabia”, luglio 2025</li>\n<li>Fortune, “Saudi Arabia wants to build its post-oil future with massive AI data centers”, maggio 2025</li>\n<li>Semafor, “Qatar launches $20B AI push”, dicembre 2025</li>\n<li><a href=\"https://tech.eu\">Tech.eu</a>, “Europe’s AI ecosystem: Rapid growth and rising global ambitions”, novembre 2025</li>\n<li>DirectIndustry, “Why Europe Needs a Sovereign AI”, novembre 2025</li>\n<li>STL Partners, “Sovereign AI: What it is, country playbooks &amp; data centre strategy”, settembre 2025</li>\n<li>IAPP, “Global AI Governance Law and Policy: EU”, 2025</li>\n<li>European Commission, “AI Act implementation updates”, 2025</li>\n<li>Polytechnique Insights, “Gaia-X: the bid for a sovereign European cloud”, giugno 2025</li>\n</ul>\n",
      "date_published": "2025-12-20T00:00:00.000Z",
      "date_modified": "2025-12-20T00:00:00.000Z",
      "tags": [
        "AI Sovereignty",
        "EU AI Act",
        "GAIA-X",
        "Geopolitics",
        "Europe",
        "Infrastructure"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/governance/ia-sovranit%C3%A0/",
            "title": "AI Sovereignty: Europe's Decision Point"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/methodology/debugging-organizzativo-hackman/",
      "url": "https://ireneburresi.dev/blog/methodology/debugging-organizzativo-hackman/",
      "title": "Perché cambiare le persone non cambia il team",
      "summary": "Non \"chi non funziona\" ma \"cosa nella struttura non funziona\". Sei diagnosi ribaltate col framework di Hackman. Il primo debug è sulla struttura.",
      "content_html": "<p>Il team di Marco non funziona. Lo sanno tutti. La diagnosi arriva in fretta: “Marco non è motivato”. “Sara non comunica”. Si decide: un one-on-one con Marco per capire cosa lo blocca, un workshop di team building, e se le cose non migliorano si cambia qualcuno.</p>\n<p>Tre mesi dopo, Marco se n’è andato. È arrivato Luca. Il team non funziona ancora.</p>\n<p>La scena si ripete perché la diagnosi è sbagliata. Non sbagliata in modo ovvio — sbagliata in modo plausibile, che è peggio. “Marco non è motivato” suona ragionevole. Tutti annuiscono. Peccato che il problema non sia Marco.</p>\n<p>La psicologia sociale ha un nome per questo: <em>fundamental attribution error</em>. Ross lo ha descritto nel 1977: quando osserviamo un comportamento, tendiamo ad attribuirlo a tratti della persona (pigrizia, scarsa collaboratività) sottovalutando il peso della situazione in cui quella persona si trova.</p>\n<p>J. Richard Hackman ha studiato team per quarant’anni: equipaggi di volo, orchestre, squadre di intelligence. Il punto fermo della sua ricerca: le condizioni strutturali in cui un team opera spiegano fino all’80% della varianza nella sua efficacia (<a href=\"https://doi.org/10.1177/0021886305281984\">Wageman, Hackman &amp; Lehman, 2005</a>). Quando un team non funziona, il problema più probabile non è chi ci lavora dentro. È come è stato progettato.</p>\n<p>Prima di cambiare le persone, conviene verificare le condizioni.</p>\n<hr />\n<h2>Le cinque condizioni: una checklist, non una teoria</h2>\n<p>Hackman non ha prodotto un modello astratto. Ha prodotto una checklist. Cinque condizioni che, se presenti, rendono probabile che un team funzioni. Se assenti, rendono probabile il contrario. Le ha validate empiricamente su centinaia di team in contesti diversi, e funzionano come strumento diagnostico molto prima che come teoria.</p>\n<p>Le riassumo con una traduzione rapida nel contesto software. Chi vuole il quadro completo può partire dal <a href=\"https://ireneburresi.dev/blog/methodology/hackman-real-team-software/\">pezzo precedente su Hackman e la distinzione team/gruppo di lavoro</a>.</p>\n<p><strong>1. Essere un team reale.</strong> Confini chiari, composizione stabile, interdipendenza reale. Se manca anche solo una di queste tre, non hai un team. Hai un gruppo di persone con un manager in comune.</p>\n<p><strong>2. Una direzione convincente.</strong> Un obiettivo chiaro, sfidante e significativo. Non “chiudere le story dello sprint”, che è un’unità di misura, non una direzione. Una direzione convincente risponde alla domanda: perché questo lavoro conta?</p>\n<p><strong>3. Una struttura abilitante.</strong> Ruoli, norme, competenze. Il minimo di infrastruttura perché le persone non debbano rinegoziare tutto da zero ogni settimana.</p>\n<p><strong>4. Un contesto organizzativo che supporta.</strong> Il team ha le informazioni che gli servono? Le risorse? Il sistema di reward incentiva il risultato di gruppo o la performance individuale? Questa è la condizione che il team non può darsi da solo. Dipende dall’organizzazione intorno.</p>\n<p><strong>5. Un coaching competente sul processo.</strong> Non mentoring tecnico: qualcuno che aiuta il team a lavorare meglio <em>insieme</em>. Come prendono decisioni, come gestiscono i disaccordi, come distribuiscono il lavoro. È la condizione che conta meno delle altre quattro (il 10% del 60/30/10 di Hackman), ma è quella su cui tutti si concentrano.</p>\n<p>L’istinto di chi gestisce team è partire dal fondo: coaching, facilitazione, dinamiche interpersonali. Hackman dice: parti dall’alto.</p>\n<hr />\n<h2>La tabella che ribalta la diagnosi</h2>\n<p>Ecco il nucleo del discorso. Sei frasi che sento ripetere in continuazione, e per ciascuna la diagnosi abituale, la causa strutturale più probabile, e dove conviene guardare.</p>\n<p>Alcune di queste mappature sono ancorabili direttamente alla ricerca di Hackman. Altre sono la mia traduzione nel contesto software, e le segnalo.</p>\n<h3>“Marco non è motivato”</h3>\n<p>È un problema di Marco, si dice. Manca di drive, di ownership, forse non è la persona giusta per il ruolo.</p>\n<p>Più probabilmente manca una <strong>direzione convincente</strong> (condizione 2). Se l’obiettivo del team è vago, puramente gestionale o cambia ogni due settimane, la motivazione non è un tratto di Marco. È una risposta razionale a un contesto che non dà ragioni per investire energia. Ho visto sviluppatori brillanti sembrare svogliati perché il mandato del loro team era “supportare il prodotto”, che in pratica significava rispondere a ticket senza fine e senza una visione di dove si stava andando.</p>\n<p>Non guardare a Marco. Guarda al mandato del team. Se non riesci a spiegare in una frase perché quel lavoro conta, il problema è lì.</p>\n<h3>“Sara non comunica”</h3>\n<p>Dove guardare, in questo caso, è al design del lavoro. Se ogni persona lavora su una feature separata e le interazioni si limitano a qualche commento su una pull request, non c’è motivo strutturale per comunicare di più. Sara non è poco collaborativa. È razionale: perché dovrebbe aggiornare gli altri su un lavoro che non li riguarda?</p>\n<p>La causa è la mancanza di <strong>interdipendenza reale</strong> (condizione 1). Puoi organizzare tutti i workshop di comunicazione che vuoi: se la struttura del lavoro non genera dipendenze reciproche, la comunicazione resterà un rituale vuoto.</p>\n<h3>“Il team non si fida”</h3>\n<p>La reazione classica: team building, esercizi di vulnerabilità, un offsite per conoscersi meglio.</p>\n<p>La fiducia in un team non nasce da un workshop di un pomeriggio. Nasce dal lavorare insieme abbastanza a lungo da poter prevedere come si comporterà l’altro. Hackman lo ha visto con gli equipaggi di volo: quelli che volavano insieme da tempo commettevano meno errori di quelli appena formati, anche con piloti meno esperti. Il problema più probabile è la <strong>composizione instabile</strong> (condizione 1). Se ogni trimestre ruoti le persone tra team, riparti da zero ogni volta.</p>\n<p>Quante volte è cambiata la composizione nell’ultimo anno? Se la risposta è “spesso”, il deficit di fiducia non è un problema relazionale. È turnover strutturale.</p>\n<h3>“Le retro non producono nulla”</h3>\n<p>Qui la domanda viene prima della risposta: c’è un processo condiviso da migliorare? Le retrospettive presuppongono un team che collabora su un risultato comune e vuole migliorare il modo in cui lo fa. Se ognuno ha il suo flusso, le sue priorità e i suoi blocchi, la retro non ha un oggetto. Il formato non c’entra. La causa è che il gruppo non è un <strong>team reale</strong> (condizione 1).</p>\n<h3>“Il lead non riesce a guidare il team”</h3>\n<p>La diagnosi abituale: mancano le soft skill. Mandiamolo a un corso di leadership.</p>\n<p>Il lead può essere bravissimo, ma se il team non ha accesso alle informazioni che gli servono, se le risorse vengono tagliate senza preavviso, se il sistema di valutazione premia la performance individuale e ignora quella di gruppo, il lead è in una posizione impossibile. È come chiedere a un pilota di atterrare bene con un aereo progettato male — puoi mandarlo a tutti i corsi di volo che vuoi, ma se i flap non funzionano, il problema non è la sua tecnica.</p>\n<p>La causa è il <strong>contesto organizzativo</strong> (condizione 4). Il lead ha l’autorità per prendere decisioni? Le priorità sono stabili abbastanza da permettere un piano? Se no, la leva è nell’organizzazione, non nella persona.</p>\n<h3>“Troppi conflitti”</h3>\n<p>Qui la risposta è meno lineare. Il conflitto in un team può essere un buon segno: se il team è reale e sta negoziando le norme su come lavorare insieme (condizione 3), un certo grado di attrito è fisiologico. Hackman lo dice chiaramente: i team migliori non sono quelli senza conflitti, sono quelli che hanno imparato a gestirli.</p>\n<p>Ma il conflitto può anche essere il sintomo di <strong>confini poco chiari</strong> (condizione 1): chi decide cosa? Chi ha autorità su quale parte del sistema? Se due persone pensano entrambe di essere responsabili della stessa area, il conflitto non è relazionale. È strutturale.</p>\n<p>La distinzione utile: se il conflitto è su <em>come</em> fare le cose, probabilmente è sano. Se è su <em>chi</em> dovrebbe fare cosa, è un problema di confini. E se è cronico nonostante le buone intenzioni di tutti, quasi certamente non è un problema di persone.</p>\n<hr />\n<h2>Perché continuiamo a sbagliare diagnosi</h2>\n<p>Se le condizioni strutturali contano così tanto, perché il default è sempre “colpa di qualcuno”?</p>\n<p>La prima ragione è che <strong>la struttura è invisibile</strong>. Le persone le vedi. I comportamenti li vedi. Le condizioni in cui quei comportamenti emergono, no. Hackman ha insistito su questo punto nell’ultimo paper della sua carriera, “From causes to conditions” (<a href=\"https://onlinelibrary.wiley.com/doi/full/10.1002/job.1774\">Hackman, 2012</a>): la ricerca sui team si è concentrata troppo sulle cause interne (chi fa cosa, come si comportano) e troppo poco sulle condizioni esterne (come il team è progettato, in che contesto opera). Lo stesso vale per chi gestisce team nella pratica.</p>\n<p>La seconda è che <strong>cambiare le persone sembra più facile</strong>. Dare un feedback a Marco, mandare Sara a un workshop, sostituire il lead: sono tutte azioni che un manager può fare domani mattina. Ridisegnare il mandato del team, stabilizzare la composizione, cambiare il sistema di incentivi richiedono tempo, autorità e spesso negoziazione con chi sta sopra. La diagnosi interpersonale è attraente perché ha soluzioni a portata di mano. Peccato che siano le soluzioni sbagliate.</p>\n<p>La terza è più insidiosa, e l’ho vista da vicino: <strong>l’organizzazione incentiva la diagnosi individuale</strong>. Le performance review valutano le persone, non le condizioni. I PIP si applicano alle persone. Il “fit culturale” è un attributo delle persone. L’intero apparato di gestione è costruito attorno all’idea che la performance sia un tratto individuale. Ammettere che il problema è strutturale significa ammettere che il sistema è progettato male, e chi ha progettato il sistema è spesso chi sta facendo la diagnosi.</p>\n<hr />\n<p>La prossima volta che qualcuno dice “il problema è Marco”, fermati un momento. Non perché Marco sia necessariamente innocente: a volte il problema è davvero la persona. Ma è meno frequente di quanto pensiamo, e la diagnosi interpersonale è così intuitiva che ci arriviamo sempre per prima.</p>\n<p>Prova a riformulare. Non “chi non funziona?” ma “cosa nella struttura non funziona?”. Passa dalla persona alla condizione. Poi chiediti: questa condizione è sotto il mio controllo? Se sì, è lì che va l’energia. Se no, almeno sai che nessun workshop di team building la risolverà.</p>\n<p>Non è una differenza da poco. È la differenza tra debuggare il codice e debuggare il compilatore.</p>\n<hr />\n<h2>Fonti</h2>\n<ul>\n<li>Hackman, J.R. (2002). <em>Leading Teams: Setting the Stage for Great Performances</em>. Harvard Business School Press.</li>\n<li>Hackman, J.R. (2011). <em>Collaborative Intelligence: Using Teams to Solve Hard Problems</em>. Berrett-Koehler.</li>\n<li>Hackman, J.R. (2012). <a href=\"https://onlinelibrary.wiley.com/doi/full/10.1002/job.1774\">From causes to conditions in group research</a>. <em>Journal of Organizational Behavior</em>, 33, 428-444.</li>\n<li>Wageman, R., Hackman, J.R. &amp; Lehman, E.V. (2005). <a href=\"https://doi.org/10.1177/0021886305281984\">Team Diagnostic Survey: Development of an Instrument</a>. <em>Journal of Applied Behavioral Science</em>, 41(4), 373-398.</li>\n<li>Ross, L. (1977). The intuitive psychologist and his shortcomings: Distortions in the attribution process. In L. Berkowitz (Ed.), <em>Advances in Experimental Social Psychology</em> (Vol. 10, pp. 173-220). Academic Press.</li>\n</ul>\n",
      "date_published": "2025-03-22T00:00:00.000Z",
      "date_modified": "2025-03-22T00:00:00.000Z",
      "tags": [
        "Team Design",
        "Hackman",
        "Organizational Design",
        "Team Effectiveness",
        "Fundamental Attribution Error",
        "Diagnostica"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/methodology/debugging-organizzativo-hackman/",
            "title": "Why replacing people doesn't fix the team"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/methodology/hackman-real-team-software/",
      "url": "https://ireneburresi.dev/blog/methodology/hackman-real-team-software/",
      "title": "L'Agile ti sembra frustrante? Forse perché il tuo team non è un team",
      "summary": "La distinzione di Hackman tra team e gruppo di lavoro spiega perché standup, retro e planning sembrano inutili. Il problema non è Agile: è un mismatch strutturale.",
      "content_html": "<p>Lo standup dura dodici minuti. Cinque persone, ognuna recita il suo aggiornamento guardando un punto imprecisato dello schermo. Nessuno commenta quello che dicono gli altri, perché non c’è motivo: ognuno lavora sulla propria feature, in un angolo diverso del codebase. Finisce lo standup, tutti tornano a fare esattamente quello che avrebbero fatto senza. Poi c’è la retro. Ne escono tre post-it con “migliorare la comunicazione”, gli stessi del mese scorso. E lo sprint planning, che in pratica è un’assegnazione di task individuali con un timer di due settimane.</p>\n<p>Se ti riconosci, non sei solo. Il <a href=\"https://digital.ai/resource/state-of-agile-report/\">17th State of Agile Report</a> di <a href=\"https://digital.ai/\">Digital.ai</a> (2024) riporta che solo l’11% dei praticanti si dichiara “molto soddisfatto” delle pratiche Agile nella propria organizzazione. La frustrazione è così diffusa che due firmatari del Manifesto Agile originale hanno preso posizioni pubbliche contro ciò che Agile è diventato: Ron Jeffries, co-creatore di Extreme Programming, ha scritto che gli sviluppatori dovrebbero <a href=\"https://ronjeffries.com/articles/018-01ff/abandon-1/\">abbandonare Agile</a>, o almeno la versione che le organizzazioni ne hanno fatto. Dave Thomas, un altro firmatario, ha dichiarato che <a href=\"https://pragdave.me/thoughts/active/2014-03-04-time-to-kill-agile.html\">Agile è morto</a>, svuotato di significato dal marketing e dalla certificazione di massa.</p>\n<p>La diagnosi più comune è che Agile sia diventato burocrazia: troppi rituali, troppo processo, troppo poco codice. Ha senso. Chi non l’ha pensato almeno una volta, uscendo dall’ennesimo planning infinito?</p>\n<p>Ma c’è un’altra possibilità. Una che non ha a che fare con Agile in sé, ma con qualcosa di più basilare: la struttura su cui lo stai applicando.</p>\n<p>J. Richard Hackman ha passato 40 anni a studiare team reali: equipaggi di volo, orchestre, team di intelligence, squadre chirurgiche. La sua ricerca, condensata in <em>Leading Teams</em> (2002) e <em>Collaborative Intelligence</em> (2011), arriva a una distinzione che nel mondo software quasi nessuno fa: quella tra un <strong>team</strong> e un <strong>gruppo di lavoro</strong>. Sono cose diverse. Funzionano in modi diversi. E richiedono strumenti diversi.</p>\n<p>Le pratiche Agile sono progettate per team. Se le applichi a un gruppo di lavoro, il risultato è esattamente la frustrazione che stai provando. Il problema non è il metodo. È un mismatch strutturale.</p>\n<hr />\n<h2>La parola più abusata nel software</h2>\n<p>Nel mondo del software “team” è la parola predefinita per qualsiasi gruppo di persone che lavora nello stesso progetto. Cinque sviluppatori che condividono una board Jira? Team. Due backend, un frontend e un designer che riportano allo stesso manager? Team. Otto persone sparse su tre fusi orari che si vedono allo standup delle 9? Team.</p>\n<p>Hackman non sarebbe d’accordo. In <em>Leading Teams</em> definisce un “real team” attraverso tre proprietà minime, tutte necessarie.</p>\n<p>La prima è avere <strong>confini chiari</strong>: tutti sanno chi fa parte del team e chi no. Sembra banale, ma nella pratica software non lo è. Il designer “condiviso” tra tre team è dentro o fuori? Lo sviluppatore “in prestito” per due sprint, è un membro? Se non riesci a fare una lista senza esitare, i confini non sono chiari.</p>\n<p>La seconda è una <strong>composizione stabile</strong>. Le persone restano le stesse abbastanza a lungo da sviluppare modi di lavorare condivisi. Hackman studiava equipaggi di volo: i dati della NASA, che lui riporta in <em>Leading Teams</em>, mostravano che gli equipaggi appena formati commettevano più errori di quelli che volavano insieme da tempo, anche con piloti meno esperti. Nel software, la rotazione trimestrale delle persone tra team distrugge questo effetto. Ogni volta si ricomincia da zero.</p>\n<p>La terza, e la più sottovalutata, è l’<strong>interdipendenza reale</strong>. Il risultato del team dipende dalla collaborazione tra i membri, non è la somma di contributi individuali. Questo è il punto dove la maggior parte dei “team” software crolla. Cinque sviluppatori che lavorano su cinque feature indipendenti, con cinque code review incrociate per formalità, non sono interdipendenti. Il lavoro di uno non cambia il lavoro dell’altro. Se togliessi tutte le riunioni e li mettessi in stanze separate, il risultato sarebbe lo stesso.</p>\n<p>Il test è brutale nella sua semplicità: se domani eliminassi standup, retro e planning, e ognuno lavorasse per conto suo, il prodotto finale peggiorerebbe? Se la risposta è no, se il risultato sarebbe identico, magari persino più veloce senza le interruzioni, allora quello che hai non è un team. È un gruppo di individui con un manager in comune.</p>\n<p>Non è un insulto. È una diagnosi. E la diagnosi è il primo passo per smettere di applicare gli strumenti sbagliati.</p>\n<hr />\n<h2>Le condizioni strutturali: il 60/30/10</h2>\n<p>Hackman non si è fermato alla definizione. Ha studiato cosa rende un team efficace, e la risposta è meno intuitiva di quanto sembri.</p>\n<p>La ricerca di Hackman e della sua collaboratrice Ruth Wageman identifica cinque condizioni che abilitano la performance di un team: essere un team reale, avere una direzione convincente, una struttura abilitante, un contesto organizzativo di supporto e un coaching competente. Non le approfondisco tutte qui, ognuna meriterebbe un articolo a sé. Il punto rilevante è un altro: quanto contano queste condizioni rispetto a quello che un leader fa giorno per giorno?</p>\n<p>La risposta di Hackman, formulata in <em>Collaborative Intelligence</em> (2011), è il <strong>60/30/10</strong>: il 60% dell’efficacia di un team dipende dal design, le condizioni strutturali messe in piedi prima che il team cominci a lavorare. Il 30% dipende dal lancio: come il team viene avviato, i primi giorni, le norme iniziali. Il restante 10% dal coaching in corso d’opera.</p>\n<p>Una precisazione: Hackman presenta questa ripartizione come una “best estimate”, non come il risultato di un singolo studio con quelle percentuali esatte. È un’euristica che sintetizza decenni di ricerca. Non un dato puntuale.</p>\n<p>Ma l’ordine di grandezza ha un ancoraggio empirico solido. Il Team Diagnostic Survey (TDS), sviluppato da Wageman, Hackman e Lehman e pubblicato nel 2005, è stato somministrato a 2.474 persone in 321 team. Il risultato: le condizioni strutturali spiegano fino all’80% della varianza nell’efficacia dei team (<a href=\"https://doi.org/10.1177/0021886305281984\">Wageman, Hackman &amp; Lehman, 2005</a>). Non il 20%, non il 50%. L’80%.</p>\n<p>Uno studio precedente di Wageman (2001) su <a href=\"https://doi.org/10.1287/orsc.12.5.559.10094\">43 team autogestiti a Xerox</a> aveva già mostrato lo stesso pattern: le attività di design del leader influenzavano la performance del team. Le attività di coaching quotidiano, no.</p>\n<p>L’implicazione per chi lavora nel software è diretta. Quando un team non funziona, la reazione istintiva è lavorare sulle dinamiche: facilitare meglio le retro, migliorare la comunicazione, fare team building. Il framework di Hackman suggerisce che la leva più potente è a monte. Chi fa parte del team? Qual è il mandato? Come è disegnato il lavoro? Il contesto organizzativo lo supporta? Se queste condizioni non ci sono, nessuna quantità di facilitazione compenserà.</p>\n<p>Ma la prima di quelle cinque condizioni, “essere un team reale”, apre una domanda che nel software quasi nessuno si pone.</p>\n<hr />\n<h2>Team o gruppo di lavoro: la distinzione che cambia tutto</h2>\n<p>Va chiarito un punto che Hackman ripete spesso e che viene frainteso altrettanto spesso: la distinzione tra team e gruppo di lavoro non è un giudizio di valore. Non è “team = bene, gruppo di lavoro = male”. Sono due modalità organizzative diverse, ognuna con i suoi vantaggi.</p>\n<p>Un <strong>gruppo di lavoro</strong> è un insieme di persone che riportano allo stesso manager e possono coordinarsi, ma il cui output è principalmente individuale. Ognuno ha i suoi obiettivi, le sue responsabilità, i suoi deliverable. Il manager coordina, assegna, rimuove ostacoli. Non c’è bisogno di interdipendenza profonda.</p>\n<p>Un <strong>team</strong> produce un output collettivo. Il risultato non è scomponibile nella somma dei contributi individuali: richiede collaborazione continua, decisioni condivise, aggiustamento reciproco. Il costo è più alto, servono confini stabili, norme condivise, tempo per sviluppare modi di lavorare insieme. Ma per certi tipi di problemi, è l’unica configurazione che funziona.</p>\n<p>Il danno nasce quando confondi le due cose.</p>\n<p>Un gruppo di lavoro gestito come team genera overhead senza beneficio. Le riunioni di coordinamento esistono, ma non c’è nulla di sostanziale da coordinare. Le retrospettive non producono azioni perché non c’è un processo condiviso da migliorare: ognuno ha il suo flusso, le sue priorità, i suoi blocchi. Il cerimoniale Agile diventa un costo fisso su un’attività che non lo richiede.</p>\n<p>Il danno, però, è bidirezionale. Un team reale gestito come un gruppo di lavoro è altrettanto disfunzionale. Se hai persone che devono collaborare su un problema complesso e le tratti come contributori individuali, assegnando task separati, valutandoli singolarmente, senza proteggere il tempo per il lavoro congiunto, stai sabotando l’unica cosa che rende quel team efficace: l’interdipendenza.</p>\n<p>Ho visto entrambi gli scenari. Il primo è più comune nel software, perché l’organizzazione predefinita tende ad essere il gruppo di lavoro (sviluppatori assegnati a feature individuali), ma l’infrastruttura di processo è quasi sempre quella del team (Scrum, Kanban con standup, retro, planning).</p>\n<p>La domanda operativa non è “come migliorare il mio team?”. È più basilare: quello che guido, è un team o un gruppo di lavoro? La risposta cambia tutto ciò che viene dopo.</p>\n<hr />\n<h2>Il mismatch Agile: strumenti giusti, struttura sbagliata</h2>\n<p>Torniamo alla frustrazione di partenza. Le pratiche Agile, Scrum in particolare, non sono nate nel vuoto. Sono progettate attorno a un’assunzione precisa: che un piccolo gruppo di persone lavori in modo interdipendente su un obiettivo condiviso, iterando insieme. Lo sprint presuppone un goal comune. Lo standup presuppone che sapere cosa fanno gli altri cambi il tuo lavoro. La retro presuppone un processo condiviso da ispezionare. Il planning presuppone decisioni collettive sulla priorità.</p>\n<p>Sono tutti strumenti che presuppongono interdipendenza. Senza, perdono senso.</p>\n<p>Ora guarda la configurazione tipica di un “team” di sviluppo in molte organizzazioni. Le persone vengono assegnate, spesso ruotate, a un “team” che è in realtà un contenitore organizzativo. Ognuno lavora sulla propria user story, con interazioni limitate al code review e a qualche domanda su Slack. Il “goal dello sprint” è la somma delle story individuali. L’interdipendenza è minima o assente.</p>\n<p>Se applichi strumenti da team a questa struttura, il risultato è prevedibile. Lo standup diventa un giro di aggiornamenti che nessuno ascolta. La retro produce lamenti generici. Il planning diventa burocrazia. Non perché Scrum sia burocrazia, ma perché lo stai usando su una struttura per cui non è progettato.</p>\n<p>I firmatari del Manifesto lo dicono, anche se con parole diverse. Jeffries parla di “Dark Scrum”, organizzazioni che usano i rituali Agile come strumenti di controllo, svuotandoli di collaborazione. Thomas dice che “Agile” è stato trasformato in un sostantivo commerciale, quando era pensato come un aggettivo che descrive un modo di lavorare. La loro critica è legittima. Ma la diagnosi che propongono, “le organizzazioni hanno corrotto Agile”, è incompleta. Il framework di Hackman ne offre una più strutturale: molte organizzazioni non hanno corrotto Agile. Lo hanno applicato a strutture che non sono team.</p>\n<p>Ne parlo perché l’ho visto accadere più volte di quante vorrei ammettere, anche in contesti con persone competenti e buone intenzioni. La risposta standard al malessere era sempre la stessa: cambiamo facilitatore, proviamo un altro formato di retro, aggiungiamo una cerimonia. Il framework di Hackman mi ha dato un vocabolario per dire quello che sentivo ma non riuscivo a formulare: il problema non era l’esecuzione. Era la premessa.</p>\n<p>Questo cambia la diagnosi e le soluzioni. Se il problema è “Agile è diventato burocrazia”, la risposta è meno processo, meno rituali, più autonomia. A volte è giusto. Ma se il problema è un mismatch strutturale, la risposta è diversa: o trasformi la struttura in un team reale, con i costi che questo comporta, o accetti che hai un gruppo di lavoro e adotti strumenti coerenti con quella realtà. Entrambe le opzioni sono legittime. Quello che non funziona è restare nel mezzo.</p>\n<hr />\n<p>Riprendiamo lo standup di dodici minuti da cui siamo partiti. Cinque persone, cinque aggiornamenti, nessuna interazione. La diagnosi ovvia è che lo standup sia mal facilitato, o che Scrum non funzioni, o che il team abbia bisogno di “lavorare sulla comunicazione”. Sono tutte risposte che agiscono sul sintomo.</p>\n<p>La domanda di Hackman è diversa, e viene prima: quelle cinque persone hanno bisogno di parlarsi ogni mattina per fare il loro lavoro? Se il lavoro di ciascuno non dipende dagli altri, lo standup non è mal facilitato. È inutile per design. E la retro non produce azioni perché non c’è un processo condiviso da migliorare. E il planning è burocrazia perché non ci sono decisioni collettive da prendere.</p>\n<p>Non è una questione di esecuzione. È una questione di struttura.</p>\n<p>La prossima volta che pensi “Agile non funziona”, prova a riformulare. Non chiederti come migliorare il processo. Chiediti se quello che guidi è un team o un gruppo di lavoro. La risposta non è un giudizio. È una diagnosi. E dalla diagnosi dipende tutto il resto.</p>\n<hr />\n<h2>Fonti</h2>\n<ul>\n<li>Hackman, J.R. (2002). <em>Leading Teams: Setting the Stage for Great Performances</em>. Harvard Business School Press.</li>\n<li>Hackman, J.R. (2011). <em>Collaborative Intelligence: Using Teams to Solve Hard Problems</em>. Berrett-Koehler.</li>\n<li>Wageman, R. (2001). <a href=\"https://doi.org/10.1287/orsc.12.5.559.10094\">How Leaders Foster Self-Managing Team Effectiveness: Design Choices Versus Hands-on Coaching</a>. <em>Organization Science</em>, 12(5), 559-577.</li>\n<li>Wageman, R., Hackman, J.R. &amp; Lehman, E.V. (2005). <a href=\"https://doi.org/10.1177/0021886305281984\">Team Diagnostic Survey: Development of an Instrument</a>. <em>Journal of Applied Behavioral Science</em>, 41(4), 373-398.</li>\n<li><a href=\"https://digital.ai/\">Digital.ai</a> (2024). <a href=\"https://digital.ai/resource/state-of-agile-report/\">17th State of Agile Report</a>.</li>\n<li>Jeffries, R. (2018). <a href=\"https://ronjeffries.com/articles/018-01ff/abandon-1/\">Developers Should Abandon Agile</a>.</li>\n<li>Thomas, D. (2014). <a href=\"https://pragdave.me/thoughts/active/2014-03-04-time-to-kill-agile.html\">Agile is Dead (Long Live Agility)</a>.</li>\n</ul>\n",
      "date_published": "2025-03-15T00:00:00.000Z",
      "date_modified": "2025-03-15T00:00:00.000Z",
      "tags": [
        "Team Design",
        "Agile",
        "Hackman",
        "Team vs Working Group",
        "Scrum",
        "60-30-10"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/methodology/hackman-real-team-software/",
            "title": "Frustrated with Agile? Maybe your team isn't actually a team"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/business/senior-domani/",
      "url": "https://ireneburresi.dev/blog/business/senior-domani/",
      "title": "Chi saranno i senior di domani?",
      "summary": "L'occupazione per sviluppatori under 25 è calata del 20% dal lancio di ChatGPT. Le aziende assumono meno junior perché l'AI fa quei task. Ma senza junior oggi, chi guiderà i team tra dieci anni?",
      "content_html": "<h2>Una domanda che nessuno fa nei board meeting</h2>\n<p><em>Le aziende non assumono junior perché l’AI svolge i loro task meglio. E tra dieci anni, chi guiderà i team?</em></p>\n<p>Nei report trimestrali non trovi mai questa domanda. La butto lì: se smettiamo di assumere chi sta imparando, chi diavolo saprà fare questo lavoro tra un decennio?</p>\n<p>I numeri raccontano qualcosa che dovrebbe far venire i brividi a chiunque gestisca team tecnici. L’occupazione per sviluppatori software tra i 22 e i 25 anni è calata del 20% dal picco di fine 2022. Il dato viene da un <a href=\"https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/\">paper del Digital Economy Lab di Stanford</a>, basato su payroll di 25 milioni di lavoratori. E non è un calo uniforme, anzi: nello stesso periodo gli over-35 nelle stesse mansioni sono cresciuti dell’8%.</p>\n<p>Potremmo chiamarlo paradosso dell’apprendistato, questo meccanismo. Le aziende smettono di assumere entry-level perché l’AI svolge quei task meglio. Peccato che senza entry-level oggi, senior domani non ne avrai.</p>\n<hr />\n<h2>Numeri, non impressioni</h2>\n<p>La contrazione è documentata da fonti multiple e indipendenti, non è una sensazione.</p>\n<p>Le assunzioni entry-level nelle 15 maggiori aziende tech sono calate del 25% tra il 2023 e il 2024, secondo <a href=\"https://spectrum.ieee.org/ai-effect-entry-level-jobs\">SignalFire</a>. L’età media delle assunzioni tecniche dal 2021 è aumentata di tre anni. Le aziende non stanno solo assumendo meno, stanno assumendo diversamente. Vogliono gente produttiva dal giorno uno.</p>\n<p>I tirocini tech crollati del 30% dal 2023, <a href=\"https://stackoverflow.blog/2025/12/26/ai-vs-gen-z\">secondo Handshake</a>. Le candidature aumentate del 7%. Più gente che si sbatte per meno posti, e quei posti che restano chiedono sempre più esperienza.</p>\n<p>Uno <a href=\"https://www.finalroundai.com/blog/ai-is-making-it-harder-for-junior-developers-to-get-hired\">studio Harvard</a> su 285.000 aziende americane ha trovato che quando le imprese adottano AI generativa, l’occupazione junior cala del 9-10% entro sei trimestri. I senior restano stabili. Non sono licenziamenti di massa, è un congelamento silenzioso: le aziende semplicemente smettono di aprire posizioni entry-level.</p>\n<p>In Europa stesso schema. Posizioni junior nel tech <a href=\"https://restofworld.org/2025/engineering-graduates-ai-job-losses/\">giù del 35%</a> nei principali paesi EU durante il 2024, dati aggregati da LinkedIn, Indeed, Eures. In UK le Big Four della consulenza hanno tagliato le assunzioni di neolaureati tra il 6% e il 29% in due anni. India: le aziende IT hanno ridotto i ruoli entry-level del 20-25%, report EY.</p>\n<p>Il World Economic Forum nel Future of Jobs Report 2025 avverte che il 40% dei datori di lavoro prevede di ridurre personale dove l’AI può automatizzare i task. E i task automatizzabili sono, quasi per definizione, quelli che facevano i junior.</p>\n<hr />\n<h2>Il ragionamento ha senso. Nel breve periodo.</h2>\n<p>Devo ammetterlo, la logica dietro queste scelte è comprensibile.</p>\n<p>Un senior engineer con strumenti AI può fare quello che prima richiedeva due o tre junior, almeno per certi task. GitHub Copilot, Cursor e simili promettono aumenti di produttività del 20-50% secondo i vendor (certo, c’è il marketing, ma anche scontandolo qualcosa resta). Per un CFO che guarda al prossimo trimestre, assumere un junior che richiederà sei mesi di formazione prima di essere produttivo sembra difficile da giustificare.</p>\n<p>James O’Brien, professore di computer science a Berkeley che lavora con startup, <a href=\"https://sfstandard.com/2025/05/20/silicon-valley-white-collar-recession-entry-level/\">descrive il cambio</a>: “Prima, le startup assumevano una persona senior e due o tre coder early-career per assisterla. Ora chiedono: perché assumere un neolaureato quando l’AI è più economica e veloce?”</p>\n<p>Domanda ragionevole, nel breve.</p>\n<p>Il codice generato dall’AI non è di prima qualità, ma neanche quello scritto da un neolaureato, diciamocelo. La differenza, nota O’Brien, è che il processo iterativo per migliorare il codice AI richiede minuti. Un junior potrebbe impiegare giorni per lo stesso task.</p>\n<p>Heather Doshay, head of talent di SignalFire, la mette così: “Nessuno ha pazienza o tempo per il hand-holding in questo nuovo ambiente, dove molto del lavoro può essere fatto autonomamente dall’AI.”</p>\n<hr />\n<h2>Quello che non appare in nessun bilancio</h2>\n<p>C’è un difetto in questa logica, e si chiama pipeline di talenti.</p>\n<p>Matt Garman, CEO di AWS, <a href=\"https://www.finalroundai.com/blog/aws-ceo-ai-cannot-replace-junior-developers\">lo ha detto chiaro</a>: “Se non hai una pipeline di talenti che stai costruendo, se non hai persone junior che stai mentorando e facendo crescere nell’azienda, spesso scopriamo che è da lì che vengono le idee migliori. Se un’azienda smette di assumere junior e di farli crescere, tutto il sistema alla fine esplode.”</p>\n<p>Non è retorica, è matematica demografica applicata alle organizzazioni.</p>\n<p>Ogni senior engineer, ogni tech lead, ogni CTO è stato un junior. Il percorso da neolaureato a leader tecnico richiede anni su progetti reali, errori fatti e corretti, feedback ricevuti, pattern che entrano sotto pelle. Non ci sono scorciatoie, su questo.</p>\n<p>Faccio un conto brutale: se l’industria smette di assumere junior nel 2023, nel 2033 avrà una carenza strutturale di mid-level. Cinque anni dopo mancheranno i senior. Altri cinque e non ci sarà nessuno da promuovere a ruoli di leadership tecnica.</p>\n<p>Questo costo non appare in nessun bilancio trimestrale, ecco il punto. È un debito che si accumula silenziosamente, e quando diventerà evidente sarà troppo tardi per rimediare in fretta.</p>\n<hr />\n<h2>L’AI che insegna e quella che atrofizza</h2>\n<p>C’è un’ironia in tutto questo. Gli stessi strumenti AI che stanno eliminando i ruoli junior potrebbero, in teoria, accelerare l’apprendimento. Un tutor AI disponibile 24/7, paziente, che risponde a ogni domanda: il sogno di ogni studente, no?</p>\n<p>La realtà è più complicata. E qui i dati sono interessanti, secondo me.</p>\n<p>Un esperimento di ricercatori Wharton e Penn su quasi mille studenti di liceo in matematica ha testato due versioni di un tutor basato su GPT-4. Il gruppo con accesso a un’interfaccia tipo ChatGPT standard (GPT Base) ha ottenuto risultati del 48% migliori durante le sessioni di pratica assistita. Il gruppo con un tutor progettato per guidare senza dare risposte dirette (GPT Tutor) ha fatto il 127% meglio.</p>\n<p>Ma ecco il punto: quando l’AI è stata tolta e gli studenti hanno fatto l’esame da soli, il gruppo GPT Base ha ottenuto risultati del 17% <em>peggiori</em> rispetto al gruppo di controllo che non aveva mai usato AI. Il gruppo GPT Tutor invece era in linea col controllo.</p>\n<p>Gli studenti usavano l’AI come stampella. Performavano meglio con l’assistenza, imparavano meno. Quando l’assistenza spariva, si ritrovavano più indietro di chi non l’aveva mai avuta.</p>\n<p>Uno <a href=\"https://time.com/7295195/ai-chatgpt-google-learning-school/\">studio del MIT Media Lab</a> ha documentato quello che i ricercatori chiamano “debito cognitivo”: l’uso di LLM per la scrittura sembra ridurre lo sforzo mentale durante il task, ma a costo di un apprendimento più superficiale. La ricercatrice Nataliya Kosmyna lo dice chiaramente: “I cervelli che si stanno sviluppando sono quelli a rischio più alto.”</p>\n<p>Non significa che l’AI non possa aiutare l’apprendimento. Lo studio Wharton dimostra che può farlo, se progettata con le giuste salvaguardie. Ma l’AI “selvaggia”, quella che dà risposte invece di guidare verso le risposte, può fare danni.</p>\n<hr />\n<h2>Chi saranno i junior che passeranno il filtro?</h2>\n<p>Se le posizioni junior si riducono, chi viene assunto?</p>\n<p>I segnali dal mercato sono chiari. Saper programmare non basta più. I datori di lavoro <a href=\"https://spectrum.ieee.org/ai-effect-entry-level-jobs\">si aspettano</a> che i neolaureati sappiano gestire progetti, comunicare con i clienti, capire il ciclo di vita dello sviluppo software. Il lavoro “grunt” che una volta serviva da palestra viene automatizzato. Chi entra deve essere operativo a un livello più alto quasi dal primo giorno.</p>\n<p>Jamie Grant, che gestisce i career services per ingegneria alla University of Pennsylvania, descrive il cambio: “Non stanno necessariamente solo programmando. C’è molto più pensiero di alto livello e conoscenza del ciclo di vita dello sviluppo software.”</p>\n<p>David Malan di Harvard, che insegna il corso di introduzione alla programmazione più seguito al mondo, nota che l’impatto maggiore dell’AI è stato sui programmatori, non sui ruoli che ci si aspettava (tipo i call center). La ragione: il lavoro di programmazione è relativamente solitario e altamente strutturato. Perfetto per l’automazione, insomma.</p>\n<p>Ma Malan nota anche qualcosa di interessante. Negli Stati Uniti l’occupazione per “programmatori” è calata del 27,5% tra il 2023 e il 2025, ma quella per “software developers”, posizione più orientata al design, è calata solo dello 0,3%. La differenza è nel livello di astrazione. Chi scrive codice è vulnerabile. Chi progetta sistemi lo è meno.</p>\n<hr />\n<h2>Tre scenari, nessuno inevitabile</h2>\n<p><strong>Il collasso della pipeline.</strong> Le aziende continuano a non assumere junior. Tra cinque, dieci anni la carenza di mid-level diventa acuta. I senior rimasti vengono pagati cifre astronomiche. Le aziende che non possono permetterseli perdono competitività. L’industria si polarizza tra pochi giganti che attraggono talento e tutti gli altri che arrancano.</p>\n<p><strong>L’apprendistato reinventato.</strong> Alcune aziende capiscono che il problema sta arrivando e investono controcorrente. Creano programmi di formazione intensivi, magari assistiti da AI progettata per insegnare invece che sostituire. Diventano i datori di lavoro preferiti per i talenti migliori, che sanno che lì potranno crescere. Nel lungo periodo hanno un vantaggio competitivo.</p>\n<p><strong>La democratizzazione irregolare.</strong> L’AI abbassa la barriera d’ingresso per alcune competenze (scrivere codice funzionante) ma la alza per altre (progettare sistemi, debuggare problemi complessi, gestire l’AI stessa). Chi ha accesso a formazione di qualità e mentorship può saltare alcuni gradini. Chi non ce l’ha resta bloccato. La disuguaglianza di opportunità aumenta.</p>\n<p>Nessuno di questi scenari è scritto nella pietra. Dipende da scelte che aziende, istituzioni educative e policy maker faranno nei prossimi anni.</p>\n<hr />\n<h2>Se assumi, qualche domanda da farti</h2>\n<p>Stai ottimizzando per il prossimo trimestre o per i prossimi dieci anni? Un junior costa di più nel breve periodo, certo. Ma l’alternativa è dipendere interamente dal mercato esterno per il talento, competendo con tutti gli altri che hanno fatto la stessa scelta.</p>\n<p>Il tuo team sta ancora insegnando? Se i senior passano tutto il tempo a produrre e nessuno a trasferire conoscenza, stai consumando capitale umano senza rigenerarlo.</p>\n<p>Come usi l’AI nella formazione? Se i tuoi junior usano Copilot per avere risposte invece che per imparare a trovarle, stai accelerando la loro produttività a breve termine e compromettendo la loro crescita a lungo termine.</p>\n<p>Stai assumendo per le skill di oggi o per l’adattabilità di domani? Le competenze tecniche specifiche hanno una half-life sempre più breve. La capacità di imparare, di ragionare su problemi nuovi, di lavorare con le persone: quelle durano.</p>\n<hr />\n<h2>Se stai iniziando, qualche considerazione</h2>\n<p>Il mercato sembra chiuderti le porte, lo so. Ma non tutto il lavoro junior sta sparendo. Sta sparendo quello ripetitivo e isolato. I ruoli che sopravvivono richiedono interazione umana, giudizio su problemi ambigui, creatività applicata a contesti specifici. Quelli sono i ruoli da cercare.</p>\n<p>L’AI come strumento, non come stampella. La differenza conta davvero. Chi usa ChatGPT per avere risposte e chi lo usa per esplorare problemi sono due persone diverse: una atrofizza, l’altra cresce.</p>\n<p>Il networking conta, probabilmente più di prima. Se le posizioni junior sono poche, la competizione è feroce, e spesso vince chi ha una connessione, non chi ha il CV migliore. Non è giusto, ma è quello che succede.</p>\n<p>Le competenze trasversali non sono optional. Comunicare, gestire progetti, capire il business: sono cose che l’AI non sa fare e che i datori di lavoro cercano anche nei profili tecnici.</p>\n<hr />\n<h2>La domanda resta aperta</h2>\n<p>Torno alla domanda iniziale: chi saranno i senior di domani?</p>\n<p>Non ho una risposta sicura, e a mio avviso nessuno ce l’ha. Stiamo conducendo un esperimento in tempo reale, senza gruppo di controllo, su scala globale.</p>\n<p>Quello che so è che ogni senior che conosco è stato un junior che qualcuno ha deciso di assumere e formare. Ogni tech lead ha fatto errori da principiante che qualcuno ha avuto la pazienza di correggere. Ogni architetto di sistema ha scritto codice imbarazzante prima di scrivere codice elegante.</p>\n<p>Se eliminiamo quella fase, se la consideriamo un costo da tagliare invece che un investimento da proteggere, non stiamo ottimizzando. Stiamo consumando un capitale che non sappiamo come rigenerare.</p>\n<p>La domanda non è se l’AI può sostituire i junior. Può farlo, per molti task. La domanda è se vogliamo un’industria che sa solo consumare competenze o una che sa anche produrle.</p>\n<p>Per ora i numeri suggeriscono che abbiamo scelto la prima opzione.</p>\n<p>Il conto arriverà. Non nel prossimo trimestre, ma arriverà.</p>\n<hr />\n<h2>Fonti</h2>\n<p>Brynjolfsson, E., Chandar, B., &amp; Chen, R. (2025). <a href=\"https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/\"><em>Canaries in the Coal Mine: Six Facts about the Recent Employment Effects of AI</em></a>. Stanford Digital Economy Lab.</p>\n<p>Bastani, H., Bastani, O., Sungu, A., Ge, H., Kabakcı, Ö., &amp; Mariman, R. (2024). <em>Generative AI Can Harm Learning</em>. The Wharton School Research Paper.</p>\n<p>Stack Overflow. (2025, December). <a href=\"https://stackoverflow.blog/2025/12/26/ai-vs-gen-z\"><em>AI vs Gen Z: How AI has changed the career pathway for junior developers</em></a>. Stack Overflow Blog.</p>\n<p>IEEE Spectrum. (2025, December). <a href=\"https://spectrum.ieee.org/ai-effect-entry-level-jobs\"><em>AI Shifts Expectations for Entry Level Jobs</em></a>.</p>\n<p>Rest of World. (2025, December). <a href=\"https://restofworld.org/2025/engineering-graduates-ai-job-losses/\"><em>AI is wiping out entry-level tech jobs, leaving graduates stranded</em></a>.</p>\n<p>Kosmyna, N., et al. (2025). <a href=\"https://arxiv.org/abs/2506.08872\"><em>Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task</em></a>. arXiv.</p>\n<p>World Economic Forum. (2025). <a href=\"https://www.weforum.org/publications/the-future-of-jobs-report-2025/\"><em>Future of Jobs Report 2025</em></a>.</p>\n<p>FinalRound AI. (2025). <a href=\"https://www.finalroundai.com/blog/aws-ceo-ai-cannot-replace-junior-developers\"><em>AWS CEO Shares 3 Solid Reasons Why Companies Shouldn’t Replace Juniors with AI Agents</em></a>.</p>\n",
      "date_published": "2025-01-06T00:00:00.000Z",
      "date_modified": "2025-01-06T00:00:00.000Z",
      "tags": [
        "Junior Developers",
        "AI Impact",
        "Talent Pipeline",
        "Future of Work",
        "Learning",
        "Career"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/business/senior-domani/",
            "title": "Who Will the Senior Engineers of Tomorrow Be?"
          }
        ]
      }
    },
    {
      "id": "https://ireneburresi.dev/blog/engineering/seo-vs-geo/",
      "url": "https://ireneburresi.dev/blog/engineering/seo-vs-geo/",
      "title": "Da SEO a GEO: Guida Tecnica all'Ottimizzazione per AI Search",
      "summary": "robots.txt, llms.txt, structured data con E-E-A-T, answer blocks, multimodal: l'infrastruttura tecnica completa per posizionarsi nei motori generativi. Paper Princeton, dati Cloudflare 2025, implementazioni concrete.",
      "content_html": "<h2>Il cambio di paradigma: dai link alle citazioni</h2>\n<p><em>GPTBot è passato dal 5% al 30% del traffico crawler in un anno. Il traffico generato da query utente verso AI è cresciuto 15 volte. L’infrastruttura SEO tradizionale non intercetta più questo flusso.</em></p>\n<p><strong>TL;DR:</strong> L’ottimizzazione per motori generativi (GEO) richiede interventi tecnici specifici: configurare robots.txt per 20+ AI crawler, implementare llms.txt per guidare LLM verso contenuti prioritari, estendere structured data con JSON-LD incluso Person schema con E-E-A-T completo (73% in più di selezione). Strutturare contenuti in answer blocks di 134-167 parole per facilitare l’estrazione. Contenuti multimodali hanno +156% selection rate. La ricerca Princeton dimostra che aggiungere citazioni da fonti autorevoli aumenta la visibilità fino al 40%. Chi implementa ora costruisce vantaggi competitivi difficili da recuperare.</p>\n<hr />\n<p>Il SEO tradizionale ottimizza per un obiettivo specifico: posizionarsi nelle liste ordinate restituite dai motori di ricerca. L’utente cerca, riceve dieci link blu, clicca. Il traffico arriva.</p>\n<p>I motori generativi funzionano diversamente. ChatGPT, Perplexity, Gemini, Claude non restituiscono liste di link. Sintetizzano risposte attingendo da fonti multiple, citando (o meno) la provenienza. L’utente ottiene una risposta, non un elenco di opzioni.</p>\n<p>Secondo i <a href=\"https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/\">dati Cloudflare di dicembre 2025</a>, GPTBot ha raggiunto il 30% del traffico AI crawler, in crescita dal 5% dell’anno precedente. Meta-ExternalAgent è entrato al 19%. ChatGPT-User, il bot che accede a pagine web quando gli utenti fanno domande, ha registrato una crescita del 2.825%. Il traffico legato a query utente è aumentato di 15 volte nel corso dell’anno.</p>\n<p>Non è un cambiamento marginale. È un nuovo canale di acquisizione che richiede infrastruttura dedicata.</p>\n<hr />\n<h2>robots.txt: configurazione per AI crawler</h2>\n<p>Il file robots.txt comunica ai crawler quali parti del sito possono accedere. Per i motori di ricerca tradizionali, la configurazione è consolidata. Per gli AI crawler, il panorama è frammentato: ogni provider usa user-agent diversi, con scopi diversi.</p>\n<h3>Mappa degli AI crawler principali</h3>\n<p><strong>OpenAI</strong> opera con tre crawler distinti:</p>\n<pre><code>User-agent: GPTBot\n# Training modelli fondazionali. Raccoglie dati per addestrare GPT.\n\nUser-agent: ChatGPT-User\n# Browsing utente. Accede a pagine quando un utente chiede informazioni.\n\nUser-agent: OAI-SearchBot\n# Search. Indicizza contenuti per la funzione di ricerca di ChatGPT.\n</code></pre>\n<p><strong>Anthropic</strong> usa:</p>\n<pre><code>User-agent: ClaudeBot\n# Training e aggiornamento Claude.\n\nUser-agent: Claude-Web\n# Accesso web per funzionalità utente.\n\nUser-agent: anthropic-ai\n# Crawler generico Anthropic.\n</code></pre>\n<p><strong>Perplexity</strong>:</p>\n<pre><code>User-agent: PerplexityBot\n# Indicizzazione per AI answer engine.\n\nUser-agent: Perplexity-User\n# Fetch per query utente.\n</code></pre>\n<p><strong>Google</strong> ha separato le funzioni:</p>\n<pre><code>User-agent: Google-Extended\n# Token per uso AI. NON è un bot, è un flag.\n# Controllare questo user-agent impedisce uso dei contenuti per training AI\n# mantenendo l'indicizzazione standard.\n\nUser-agent: Googlebot\n# Crawler tradizionale per Search.\n</code></pre>\n<p><strong>Meta</strong>:</p>\n<pre><code>User-agent: Meta-ExternalAgent\n# Crawling per training modelli AI.\n\nUser-agent: Meta-ExternalFetcher\n# Fetch per richieste utente. Può bypassare robots.txt.\n</code></pre>\n<p><strong>Altri crawler rilevanti</strong>:</p>\n<pre><code>User-agent: Amazonbot\nUser-agent: Bytespider      # ByteDance\nUser-agent: Applebot-Extended  # Apple AI (flag, non bot)\nUser-agent: CCBot           # Common Crawl\nUser-agent: cohere-ai\nUser-agent: cohere-training-data-crawler\n</code></pre>\n<h3>Strategie di configurazione</h3>\n<p><strong>Strategia 1: Accesso completo per massima visibilità AI</strong></p>\n<pre><code># Permettere tutti gli AI crawler\nUser-agent: GPTBot\nAllow: /\n\nUser-agent: ChatGPT-User\nAllow: /\n\nUser-agent: OAI-SearchBot\nAllow: /\n\nUser-agent: ClaudeBot\nAllow: /\n\nUser-agent: anthropic-ai\nAllow: /\n\nUser-agent: PerplexityBot\nAllow: /\n\nUser-agent: Google-Extended\nAllow: /\n\nUser-agent: Meta-ExternalAgent\nAllow: /\n\nUser-agent: Amazonbot\nAllow: /\n</code></pre>\n<p><strong>Strategia 2: Visibilità AI search, no training</strong></p>\n<p>Questa configurazione permette ai sistemi AI di citare i contenuti nelle risposte, ma impedisce l’uso per addestrare modelli:</p>\n<pre><code># Permettere crawler search/user\nUser-agent: ChatGPT-User\nAllow: /\n\nUser-agent: OAI-SearchBot\nAllow: /\n\nUser-agent: PerplexityBot\nAllow: /\n\nUser-agent: Perplexity-User\nAllow: /\n\n# Bloccare crawler training\nUser-agent: GPTBot\nDisallow: /\n\nUser-agent: ClaudeBot\nDisallow: /\n\nUser-agent: Google-Extended\nDisallow: /\n\nUser-agent: Meta-ExternalAgent\nDisallow: /\n\nUser-agent: CCBot\nDisallow: /\n\nUser-agent: cohere-training-data-crawler\nDisallow: /\n</code></pre>\n<p><strong>Strategia 3: Accesso selettivo per directory</strong></p>\n<pre><code>User-agent: GPTBot\nAllow: /blog/\nAllow: /docs/\nDisallow: /api/\nDisallow: /internal/\nDisallow: /user-data/\n</code></pre>\n<h3>Limiti di robots.txt</h3>\n<p>Un punto critico: robots.txt è un protocollo volontario. I crawler possono ignorarlo.</p>\n<p>Ad agosto 2025, <a href=\"https://www.medianama.com/2025/12/223-user-driven-ai-bots-crawling-grows-15x-in-2025-cloudflare-report/\">Cloudflare ha bloccato i bot di Perplexity</a> dopo aver documentato violazioni del protocollo. A ottobre 2025, Reddit ha intrappolato deliberatamente i crawler Perplexity, dimostrando che aggiravano le restrizioni tramite strumenti di terze parti. Ne è seguita una causa legale.</p>\n<p>La conseguenza operativa: robots.txt da solo non basta. Per enforcement reale, servono verifiche IP, regole WAF, o blocchi a livello CDN. Cloudflare riporta che oltre 2.5 milioni di siti usano la sua funzione di managed robots.txt per bloccare AI training.</p>\n<hr />\n<h2>llms.txt: il nuovo standard per guidare i LLM</h2>\n<p>A settembre 2024, <a href=\"https://llmstxt.org/\">Jeremy Howard di Answer AI ha proposto llms.txt</a>, un nuovo file standard per comunicare con i Large Language Models. A differenza di robots.txt, che controlla l’accesso, llms.txt guida i modelli verso i contenuti più rilevanti.</p>\n<h3>Cosa fa llms.txt</h3>\n<p>Il file llms.txt è un documento markdown posizionato alla root del dominio (<code>/llms.txt</code>). Funziona come una mappa curata che indica ai LLM quali pagine contengono le informazioni più importanti e come interpretarle.</p>\n<p>Non è un meccanismo di blocco. È un sistema di raccomandazione, come un bibliotecario che guida un visitatore verso gli scaffali giusti invece di lasciarlo vagare.</p>\n<h3>Struttura del file</h3>\n<pre><code class=\"language-markdown\"># example.com\n\n&gt; Sito tecnico su implementazioni AI per enterprise.\n&gt; Contenuti verificati, aggiornati mensilmente.\n\n## Documentazione Core\n\n- [Guida RAG Produzione](https://example.com/docs/rag-production):\n  Architetture RAG testate in produzione, pattern di chunking,\n  metriche di valutazione. Aggiornato Q4 2024.\n\n- [API Reference](https://example.com/docs/api):\n  Documentazione completa delle API REST. Include esempi\n  di codice Python e cURL.\n\n## Articoli Tecnici\n\n- [Ottimizzazione Latenza LLM](https://example.com/blog/llm-latency):\n  Strategie per ridurre latenza p95 sotto 200ms.\n  Include benchmark su Claude, GPT-4, Mistral.\n\n- [Cost Management AI](https://example.com/blog/ai-costs):\n  Framework per stimare e ottimizzare costi inference.\n  Dati reali da deployment enterprise.\n\n## Risorse\n\n- [Glossario AI](https://example.com/glossario):\n  Definizioni tecniche di 150+ termini AI/ML.\n</code></pre>\n<h3>llms-full.txt: versione estesa</h3>\n<p>Oltre a llms.txt, lo standard prevede un file opzionale <code>llms-full.txt</code> che contiene il contenuto completo del sito in formato flattened. Rimuove HTML, CSS, JavaScript non essenziali e presenta solo il testo. Alcuni siti generano file da 100K+ parole.</p>\n<p>Il vantaggio: permette ai LLM di processare l’intero sito in un singolo context. Il limite: supera facilmente la context window della maggior parte dei modelli.</p>\n<h3>Stato di adozione</h3>\n<p>A gennaio 2025, <a href=\"https://www.ovrdrv.com/insights/llms-txt-the-new-standard-for-ai-crawling\">OpenAI, Google e Anthropic non supportano nativamente llms.txt</a>. I loro crawler non leggono automaticamente il file.</p>\n<p>L’adozione attuale è concentrata in nicchie specifiche:</p>\n<ul>\n<li><strong>Documentazione tecnica</strong>: Mintlify ha integrato llms.txt a novembre 2024. I siti di documentazione di Anthropic, Cursor, Cloudflare, Vercel lo usano.</li>\n<li><strong>Directory dedicate</strong>: <a href=\"https://directory.llmstxt.cloud\">directory.llmstxt.cloud</a> e <a href=\"https://llmstxt.site\">llmstxt.site</a> catalogano i siti con implementazione.</li>\n<li><strong>Uso manuale</strong>: Sviluppatori che uploadano il file direttamente a ChatGPT o Claude per dare contesto.</li>\n</ul>\n<p>È un investimento di future-proofing. Quando i major provider adotteranno lo standard, chi ha già implementato avrà vantaggio.</p>\n<h3>Implementazione</h3>\n<ol>\n<li>Creare <code>/llms.txt</code> alla root del dominio</li>\n<li>Formato UTF-8, markdown pulito</li>\n<li>Includere solo pagine indexabili (no noindex, no blocked in robots.txt)</li>\n<li>Aggiungere descrizioni concise ma informative per ogni URL</li>\n<li>Opzionale: riferimento in robots.txt con <code># LLM-policy: /llms.txt</code></li>\n</ol>\n<h3>Differenze con altri file standard</h3>\n<table>\n  <caption>Confronto tra file standard per crawler web e AI</caption>\n  <thead>\n    <tr>\n      <th>File</th>\n      <th>Scopo</th>\n      <th>Target</th>\n      <th>Formato</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <td>robots.txt</td>\n      <td>Controllo accesso crawler</td>\n      <td>Search engines, AI crawler</td>\n      <td>Plain text, direttive</td>\n    </tr>\n    <tr>\n      <td>sitemap.xml</td>\n      <td>Catalogo completo pagine</td>\n      <td>Search engines</td>\n      <td>XML</td>\n    </tr>\n    <tr>\n      <td>llms.txt</td>\n      <td>Mappa curata contenuti prioritari</td>\n      <td>LLM</td>\n      <td>Markdown</td>\n    </tr>\n    <tr>\n      <td>humans.txt</td>\n      <td>Crediti team</td>\n      <td>Umani</td>\n      <td>Plain text</td>\n    </tr>\n  </tbody>\n</table>\n<hr />\n<h2>Structured Data e JSON-LD per AI</h2>\n<p>Lo structured data non è una novità. È standard SEO dal 2011. Ma il suo ruolo cambia nel contesto dei motori generativi.</p>\n<h3>Perché lo Structured Data conta per AI</h3>\n<p>I LLM processano tutto come token. Non distinguono nativamente tra un prezzo, un nome, una data. Lo structured data fornisce un layer semantico esplicito che disambigua il contenuto.</p>\n<p>Un articolo con markup JSON-LD comunica in modo machine-readable: questo è l’autore, questa è la data di pubblicazione, questa è l’organizzazione editrice, queste sono le fonti citate. Il modello non deve inferire questa struttura dal testo.</p>\n<h3>Implementazione JSON-LD base</h3>\n<p>JSON-LD (JavaScript Object Notation for Linked Data) è il formato preferito. Si inserisce in un tag <code>&lt;script&gt;</code> senza mescolarsi con l’HTML del contenuto:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"TechArticle\",\n  \"@id\": \"https://example.com/rag-production-guide\",\n  \"headline\": \"RAG in Produzione: Pattern e Anti-Pattern\",\n  \"description\": \"Guida tecnica all'implementazione RAG enterprise con metriche reali\",\n  \"author\": {\n    \"@type\": \"Person\",\n    \"name\": \"Nome Autore\",\n    \"url\": \"https://example.com/team/nome-autore\",\n    \"jobTitle\": \"AI Team Leader\",\n    \"knowsAbout\": [\"RAG\", \"LLM\", \"Vector Databases\", \"AI Engineering\"]\n  },\n  \"datePublished\": \"2025-01-04\",\n  \"dateModified\": \"2025-01-04\",\n  \"publisher\": {\n    \"@type\": \"Organization\",\n    \"name\": \"Example.com\",\n    \"url\": \"https://example.com\",\n    \"logo\": {\n      \"@type\": \"ImageObject\",\n      \"url\": \"https://example.com/logo.png\"\n    }\n  },\n  \"mainEntityOfPage\": {\n    \"@type\": \"WebPage\",\n    \"@id\": \"https://example.com/rag-production-guide\"\n  },\n  \"articleSection\": \"Engineering\",\n  \"keywords\": [\"RAG\", \"Production\", \"Enterprise AI\", \"Vector Search\"],\n  \"wordCount\": 3500,\n  \"inLanguage\": \"it\"\n}\n&lt;/script&gt;\n</code></pre>\n<h3>Schema types prioritari per AI visibility</h3>\n<p><strong>Article / TechArticle / NewsArticle</strong></p>\n<p>Per contenuti editoriali. TechArticle per documentazione tecnica.</p>\n<p><strong>FAQPage</strong></p>\n<p>Struttura Q&amp;A che i motori generativi possono estrarre direttamente:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"FAQPage\",\n  \"mainEntity\": [\n    {\n      \"@type\": \"Question\",\n      \"name\": \"Qual è la differenza tra SEO e GEO?\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"SEO ottimizza per liste di risultati dei motori di ricerca tradizionali. GEO ottimizza per essere citati nelle risposte sintetizzate dai motori generativi come ChatGPT e Perplexity.\"\n      }\n    },\n    {\n      \"@type\": \"Question\",\n      \"name\": \"llms.txt sostituisce robots.txt?\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"No. robots.txt controlla l'accesso dei crawler. llms.txt guida i LLM verso contenuti prioritari. Hanno funzioni complementari.\"\n      }\n    }\n  ]\n}\n&lt;/script&gt;\n</code></pre>\n<p><strong>HowTo</strong></p>\n<p>Per guide step-by-step:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"HowTo\",\n  \"name\": \"Come configurare robots.txt per AI crawler\",\n  \"step\": [\n    {\n      \"@type\": \"HowToStep\",\n      \"position\": 1,\n      \"name\": \"Identificare AI crawler target\",\n      \"text\": \"Mappare gli user-agent dei crawler AI che vuoi permettere o bloccare.\"\n    },\n    {\n      \"@type\": \"HowToStep\",\n      \"position\": 2,\n      \"name\": \"Definire strategia di accesso\",\n      \"text\": \"Decidere se permettere training, solo search, o bloccare completamente.\"\n    },\n    {\n      \"@type\": \"HowToStep\",\n      \"position\": 3,\n      \"name\": \"Implementare direttive\",\n      \"text\": \"Aggiungere le regole User-agent e Allow/Disallow al file robots.txt.\"\n    }\n  ]\n}\n&lt;/script&gt;\n</code></pre>\n<p><strong>Organization e Person: E-E-A-T per AI</strong></p>\n<p>E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) non è più solo un framework Google. I dati mostrano che i LLM verificano le credenziali autore prima di citare: il 96% dei contenuti in AI Overview proviene da fonti con autori verificati. Contenuti con author bio dettagliate hanno il 73% in più di probabilità di essere selezionati.</p>\n<p>Lo schema Person deve andare oltre il nome. Serve comunicare credenziali, affiliazioni, competenze specifiche:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"Person\",\n  \"name\": \"Mario Rossi\",\n  \"url\": \"https://example.com/team/mario-rossi\",\n  \"image\": \"https://example.com/images/mario-rossi.jpg\",\n  \"jobTitle\": \"Senior AI Engineer\",\n  \"description\": \"10+ anni di esperienza in ML/AI, specializzato in sistemi RAG enterprise\",\n  \"worksFor\": {\n    \"@type\": \"Organization\",\n    \"name\": \"TechCorp Italia\",\n    \"url\": \"https://techcorp.it\"\n  },\n  \"alumniOf\": {\n    \"@type\": \"CollegeOrUniversity\",\n    \"name\": \"Politecnico di Milano\"\n  },\n  \"hasCredential\": [\n    {\n      \"@type\": \"EducationalOccupationalCredential\",\n      \"credentialCategory\": \"certification\",\n      \"name\": \"AWS Machine Learning Specialty\"\n    },\n    {\n      \"@type\": \"EducationalOccupationalCredential\",\n      \"credentialCategory\": \"certification\",\n      \"name\": \"Google Cloud Professional ML Engineer\"\n    }\n  ],\n  \"knowsAbout\": [\n    \"Retrieval-Augmented Generation\",\n    \"Large Language Models\",\n    \"Vector Databases\",\n    \"MLOps\",\n    \"AI Engineering\"\n  ],\n  \"sameAs\": [\n    \"https://linkedin.com/in/mariorossi\",\n    \"https://github.com/mariorossi\",\n    \"https://scholar.google.com/citations?user=xxx\"\n  ]\n}\n&lt;/script&gt;\n</code></pre>\n<p><strong>Checklist E-E-A-T per schema Person:</strong></p>\n<ul>\n<li><code>description</code> con anni di esperienza e specializzazione</li>\n<li><code>hasCredential</code> per certificazioni verificabili</li>\n<li><code>knowsAbout</code> con topic specifici (non generici)</li>\n<li><code>sameAs</code> con link a profili verificabili (LinkedIn, GitHub, Google Scholar)</li>\n<li><code>alumniOf</code> per affiliazioni accademiche</li>\n<li><code>worksFor</code> con URL organizzazione</li>\n</ul>\n<h3>Citation schema</h3>\n<p>Per contenuti che citano fonti esterne, lo schema Citation aggiunge contesto:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"Article\",\n  \"headline\": \"Analisi Paper GEO Princeton\",\n  \"citation\": [\n    {\n      \"@type\": \"ScholarlyArticle\",\n      \"name\": \"GEO: Generative Engine Optimization\",\n      \"author\": [\"Pranjal Aggarwal\", \"et al.\"],\n      \"datePublished\": \"2024\",\n      \"publisher\": {\n        \"@type\": \"Organization\",\n        \"name\": \"Princeton University\"\n      },\n      \"url\": \"https://arxiv.org/abs/2311.09735\"\n    }\n  ]\n}\n&lt;/script&gt;\n</code></pre>\n<h3>ImageObject e VideoObject per contenuti multimodali</h3>\n<p>I contenuti multimodali hanno il 156% in più di probabilità di essere selezionati in AI Overview rispetto ai contenuti solo testo. Gemini e Perplexity investono pesantemente nella multimodal search. Lo schema per media diventa rilevante:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"ImageObject\",\n  \"contentUrl\": \"https://example.com/images/architettura-rag.png\",\n  \"name\": \"Architettura sistema RAG enterprise\",\n  \"description\": \"Schema architetturale che mostra il flusso dati tra vector store, retriever e LLM in un sistema RAG di produzione\",\n  \"author\": {\n    \"@type\": \"Person\",\n    \"name\": \"Mario Rossi\"\n  },\n  \"datePublished\": \"2025-01-04\",\n  \"encodingFormat\": \"image/png\"\n}\n&lt;/script&gt;\n</code></pre>\n<p>Per video con trascrizione:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"VideoObject\",\n  \"name\": \"Deploy RAG in produzione: walkthrough\",\n  \"description\": \"Video tutorial su deployment di sistema RAG su AWS con monitoring\",\n  \"thumbnailUrl\": \"https://example.com/video/rag-deploy-thumb.jpg\",\n  \"uploadDate\": \"2025-01-04\",\n  \"duration\": \"PT12M30S\",\n  \"transcript\": \"https://example.com/video/rag-deploy-transcript.txt\",\n  \"author\": {\n    \"@type\": \"Person\",\n    \"name\": \"Mario Rossi\"\n  }\n}\n&lt;/script&gt;\n</code></pre>\n<p><strong>Best practice per media AI-friendly:</strong></p>\n<ul>\n<li>Alt text descrittivo e contestuale (non “image1.png”)</li>\n<li>Didascalie che spiegano il contenuto, non solo lo descrivono</li>\n<li>Trascrizioni per tutti i video</li>\n<li>Caption che contestualizzano la figura nel testo circostante</li>\n</ul>\n<h3>Impatto reale sugli AI search</h3>\n<p>John Mueller di Google ha chiarito a gennaio 2025 che lo structured data non è un fattore di ranking diretto. Ma l’impatto indiretto è documentato:</p>\n<ul>\n<li>Rich snippets da structured data aumentano il CTR del 30% secondo <a href=\"https://www.brightedge.com/\">BrightEdge</a></li>\n<li>Il 72% dei siti in prima pagina Google usa schema markup</li>\n<li>AI Overviews di Google elaborano structured data per costruire risposte</li>\n</ul>\n<p>Lo structured data non garantisce citazioni nei motori generativi. Ma fornisce il contesto semantico che facilita l’interpretazione corretta del contenuto.</p>\n<hr />\n<h2>Requisiti tecnici per AI crawler</h2>\n<p>Oltre allo structured data, ci sono requisiti tecnici che influenzano la capacità dei LLM di processare e citare i contenuti.</p>\n<h3>Static HTML vs JavaScript rendering</h3>\n<p>Gli AI crawler hanno difficoltà con contenuti renderizzati via JavaScript. A differenza di Googlebot, che esegue JS, molti crawler AI preferiscono o richiedono HTML statico.</p>\n<p><strong>Regole operative:</strong></p>\n<ul>\n<li>Contenuto critico deve essere presente nell’HTML statico, non generato dinamicamente</li>\n<li>Evitare contenuti nascosti in tab, accordion, o caricati on-scroll</li>\n<li>Se usi framework JS (React, Vue, Next.js), verificare che il SSR o SSG produca HTML completo</li>\n<li>Test: visualizzare la pagina con JS disabilitato. Ciò che si vede è ciò che vedono i crawler AI base.</li>\n</ul>\n<h3>Content freshness signals</h3>\n<p>Il 23% dei contenuti selezionati in AI Overview ha meno di 30 giorni. Perplexity indicizza giornalmente. I segnali di freshness sono prioritari rispetto all’autorità storica.</p>\n<p><strong>Implementazione:</strong></p>\n<p><code>dateModified</code> in schema deve riflettere aggiornamenti reali:</p>\n<pre><code class=\"language-html\">&lt;script type=\"application/ld+json\"&gt;\n{\n  \"@context\": \"https://schema.org\",\n  \"@type\": \"TechArticle\",\n  \"headline\": \"Guida RAG Produzione\",\n  \"datePublished\": \"2024-06-15\",\n  \"dateModified\": \"2025-01-04\"\n}\n&lt;/script&gt;\n</code></pre>\n<p><strong>Checklist freshness:</strong></p>\n<ul>\n<li>Aggiornare <code>dateModified</code> solo per modifiche sostanziali (non typo fix)</li>\n<li>Segnalare update prominentemente nel contenuto (“Aggiornato: Gennaio 2025”)</li>\n<li>Review trimestrale contenuti evergreen</li>\n<li>Aggiornare statistiche e dati almeno annualmente</li>\n<li>Rimuovere o marcare come archivio contenuti obsoleti</li>\n</ul>\n<h3>Verifica citazioni e fact-checking</h3>\n<p>Gli AI eseguono cross-reference con fonti autorevoli in tempo reale. Contenuti con citazioni verificabili hanno l’89% in più di probabilità di selezione rispetto a contenuti con claim non supportati.</p>\n<p><strong>Regole:</strong></p>\n<ul>\n<li>Ogni statistica deve avere fonte linkata</li>\n<li>“Secondo una ricerca” senza link = claim non verificabile = penalizzato</li>\n<li>Preferire fonti primarie (paper, documentazione ufficiale) su fonti secondarie</li>\n<li>Citazioni da Wikipedia, Statista, Pew Research, paper arXiv hanno peso maggiore</li>\n</ul>\n<hr />\n<h2>Strategie GEO: cosa dice la ricerca</h2>\n<p>Il <a href=\"https://arxiv.org/abs/2311.09735\">paper “GEO: Generative Engine Optimization”</a> di Princeton, Georgia Tech, Allen Institute e IIT Delhi è lo studio più rigoroso disponibile sull’ottimizzazione per motori generativi. Ha testato 9 tecniche su 10.000 query.</p>\n<h3>Le tre strategie più efficaci</h3>\n<p><strong>1. Cite Sources: +40% visibilità</strong></p>\n<p>Aggiungere citazioni da fonti autorevoli è la strategia con il maggior impatto generale. Per siti con ranking basso nelle SERP tradizionali, l’effetto è ancora più marcato: +115% per siti in quinta posizione.</p>\n<p>Non basta citare. La citazione deve essere da fonte riconosciuta, pertinente al claim, verificabile.</p>\n<p><strong>2. Quotation Addition</strong></p>\n<p>Incorporare citazioni dirette da esperti del settore aumenta autenticità e profondità percepita. Funziona particolarmente per contenuti opinion-based.</p>\n<p><strong>3. Statistics Addition</strong></p>\n<p>Dati quantitativi battono discussioni qualitative. “Il 42% dei progetti AI fallisce” ha più impatto di “molti progetti AI falliscono”. Funziona particolarmente per domini Legal e Government.</p>\n<h3>Strutturare contenuti per estrazione: Answer Blocks</h3>\n<p>I LLM non citano pagine intere. Estraggono blocchi specifici. Ottimizzare per questo pattern è critico.</p>\n<p><em>Passage length</em> ottimale: 134-167 parole per blocco citabile. Per risposte FAQ dirette: 40-60 parole. Contenuti con summary box all’inizio hanno il 28-40% in più di probabilità di citazione.</p>\n<p><strong>Implementazione pratica:</strong></p>\n<ol>\n<li>\n<p><strong>TL;DR all’inizio:</strong> Ogni articolo apre con un blocco di sintesi self-contained. Non è solo per lettori umani: è il blocco che i LLM estraggono preferenzialmente.</p>\n</li>\n<li>\n<p><strong>Sezioni self-contained:</strong> Ogni H2/H3 deve essere citabile indipendentemente dal resto. Un LLM deve poter estrarre quella sezione e avere una risposta completa.</p>\n</li>\n<li>\n<p><strong>Heading come domande:</strong> “Cos’è il RAG?” performa meglio di “RAG Overview”. Matching diretto con query conversazionali.</p>\n</li>\n<li>\n<p><strong>Paragrafi modulari:</strong> 75-300 parole per sezione. No wall of text. I blocchi modulari sono più facili da estrarre e citare.</p>\n</li>\n<li>\n<p><strong>Risposte dirette prima, contesto dopo:</strong> La risposta alla domanda implicita dell’heading deve apparire nelle prime 2-3 frasi. L’elaborazione viene dopo.</p>\n</li>\n</ol>\n<p><strong>Esempio di struttura ottimizzata:</strong></p>\n<pre><code class=\"language-markdown\">## Qual è la differenza tra SEO e GEO?\n\nSEO ottimizza per posizionarsi nelle liste di risultati dei motori\ndi ricerca tradizionali. GEO ottimizza per essere citati nelle\nrisposte sintetizzate dai motori generativi come ChatGPT, Perplexity\ne Gemini. [40-60 parole di risposta diretta]\n\nIl cambiamento fondamentale riguarda l'obiettivo: dal ranking alla\ncitazione. Nel SEO classico, il successo è posizione 1 nelle SERP.\nIn GEO, il successo è essere la fonte che l'AI cita quando risponde.\n[Elaborazione e contesto]\n</code></pre>\n<h3>Strategie domain-specific</h3>\n<p>Il paper ha scoperto che l’efficacia varia per dominio:</p>\n<ul>\n<li><strong>History</strong>: Tono autorevole e persuasivo</li>\n<li><strong>Facts</strong>: Citazioni da fonti primarie</li>\n<li><strong>Law/Government</strong>: Statistiche e dati quantitativi</li>\n<li><strong>Science/Health</strong>: Terminologia tecnica + autorevolezza</li>\n</ul>\n<h3>Ottimizzazione per piattaforma specifica</h3>\n<p>Ogni LLM ha preferenze diverse. Una strategia GEO efficace considera queste differenze:</p>\n<table>\n  <caption>Preferenze di ottimizzazione per piattaforme AI generative</caption>\n  <thead>\n    <tr>\n      <th>Piattaforma</th>\n      <th>Preferenze principali</th>\n      <th>Ottimizzazione</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <td><strong>ChatGPT</strong></td>\n      <td>Wikipedia, brand popolari, contenuti consolidati</td>\n      <td>Authority building, presenza Wikipedia se applicabile</td>\n    </tr>\n    <tr>\n      <td><strong>Perplexity</strong></td>\n      <td>Reddit, contenuti recenti, real-time</td>\n      <td>Freshness prioritaria, engagement community</td>\n    </tr>\n    <tr>\n      <td><strong>Gemini</strong></td>\n      <td>Multimodal, ecosistema Google, schema markup</td>\n      <td>Video, immagini ottimizzate, structured data completo</td>\n    </tr>\n    <tr>\n      <td><strong>Claude</strong></td>\n      <td>Accuracy, contenuti bilanciati, attribuzione</td>\n      <td>Proper attribution, framing neutro ed evidence-based</td>\n    </tr>\n    <tr>\n      <td><strong>Google AI Overview</strong></td>\n      <td>Top 10 organic, E-E-A-T forte</td>\n      <td>SEO tradizionale + structured data esteso</td>\n    </tr>\n  </tbody>\n</table>\n<p><strong>Implicazioni operative:</strong></p>\n<ul>\n<li>ChatGPT cita Wikipedia nel 48% delle risposte. Per topic dove esiste una voce Wikipedia, la presenza lì pesa.</li>\n<li>Perplexity preferisce Reddit (46.7% delle citazioni). Contenuti discussi in subreddit rilevanti hanno vantaggio.</li>\n<li>Gemini integra immagini e video nelle risposte. Contenuti multimodali performano meglio.</li>\n<li>Claude verifica accuracy più rigorosamente. Claim non supportati vengono scartati.</li>\n</ul>\n<h3>Cosa non funziona</h3>\n<p><strong>Keyword stuffing</strong>: Aggiungere keyword dalla query al contenuto peggiora la visibilità del 10% rispetto al baseline. I motori generativi penalizzano l’over-optimization.</p>\n<p><strong>Persuasive language generico</strong>: Tono persuasivo senza sostanza non migliora il posizionamento.</p>\n<h3>Democratizzazione dei risultati</h3>\n<p>Un aspetto interessante: GEO livella il campo di gioco. I siti con ranking basso nelle SERP tradizionali beneficiano di più dalle ottimizzazioni GEO rispetto ai siti dominanti. Cite Sources porta +115% ai siti in quinta posizione e -30% ai siti in prima posizione.</p>\n<p>Per piccoli editori e business indipendenti, è un’opportunità di competere con corporate giants senza budget SEO comparabili.</p>\n<hr />\n<h2>Checklist implementazione</h2>\n<h3>robots.txt</h3>\n<ul>\n<li>[ ] Mappare tutti gli AI crawler rilevanti per il settore</li>\n<li>[ ] Definire strategia: full access, search-only, selective</li>\n<li>[ ] Implementare direttive per ogni user-agent</li>\n<li>[ ] Verificare sintassi con <a href=\"https://www.google.com/webmasters/tools/robots-testing-tool\">Google Robots Testing Tool</a></li>\n<li>[ ] Monitorare server logs per attività crawler</li>\n<li>[ ] Verificare compliance effettiva (IP check per crawler sospetti)</li>\n<li>[ ] Review trimestrale: nuovi crawler emergono regolarmente</li>\n</ul>\n<h3>llms.txt</h3>\n<ul>\n<li>[ ] Creare file markdown alla root del dominio</li>\n<li>[ ] Includere descrizione del sito e tipo di contenuti</li>\n<li>[ ] Organizzare URL per categoria/priorità</li>\n<li>[ ] Aggiungere descrizioni concise per ogni link</li>\n<li>[ ] Verificare che tutti gli URL siano indexabili</li>\n<li>[ ] Considerare llms-full.txt per siti con documentazione estesa</li>\n<li>[ ] Aggiornare quando nuovi contenuti prioritari vengono pubblicati</li>\n</ul>\n<h3>Structured Data / JSON-LD</h3>\n<ul>\n<li>[ ] Implementare Organization schema per il sito</li>\n<li>[ ] Aggiungere Person schema per autori con E-E-A-T completo:\n<ul>\n<li>[ ] <code>description</code> con anni esperienza e specializzazione</li>\n<li>[ ] <code>hasCredential</code> per certificazioni verificabili</li>\n<li>[ ] <code>knowsAbout</code> con topic specifici</li>\n<li>[ ] <code>sameAs</code> con LinkedIn, GitHub, Google Scholar</li>\n</ul>\n</li>\n<li>[ ] Usare Article/TechArticle per contenuti editoriali</li>\n<li>[ ] Implementare FAQPage per sezioni Q&amp;A</li>\n<li>[ ] Aggiungere Citation schema per contenuti research-based</li>\n<li>[ ] Implementare ImageObject/VideoObject per media</li>\n<li>[ ] Validare con <a href=\"https://search.google.com/test/rich-results\">Google Rich Results Test</a></li>\n<li>[ ] Verificare parità markup-contenuto visibile</li>\n</ul>\n<h3>Contenuto GEO-optimized</h3>\n<ul>\n<li>[ ] TL;DR di 40-60 parole all’inizio di ogni articolo</li>\n<li>[ ] Sezioni self-contained (citabili indipendentemente)</li>\n<li>[ ] Heading formulati come domande dove appropriato</li>\n<li>[ ] Paragrafi modulari: 75-300 parole per sezione</li>\n<li>[ ] <em>Passage length</em>: 134-167 parole per blocchi chiave</li>\n<li>[ ] Includere citazioni da fonti autorevoli in ogni articolo</li>\n<li>[ ] Aggiungere statistiche e dati quantitativi con fonte</li>\n<li>[ ] Usare quotazioni da esperti dove rilevante</li>\n<li>[ ] Evitare keyword stuffing</li>\n<li>[ ] Calibrare tono per dominio</li>\n</ul>\n<h3>Requisiti tecnici</h3>\n<ul>\n<li>[ ] Contenuto critico in HTML statico (non solo JS-rendered)</li>\n<li>[ ] No contenuti nascosti in tab/accordion/lazy-load</li>\n<li>[ ] Test pagina con JavaScript disabilitato</li>\n<li>[ ] <code>dateModified</code> aggiornato per modifiche sostanziali</li>\n<li>[ ] Segnalare update nel contenuto (“Aggiornato: Mese Anno”)</li>\n<li>[ ] Review trimestrale contenuti evergreen</li>\n<li>[ ] Ogni statistica con fonte linkata</li>\n</ul>\n<h3>Media e Multimodal</h3>\n<ul>\n<li>[ ] Alt text descrittivo e contestuale per immagini</li>\n<li>[ ] Didascalie che spiegano il contenuto</li>\n<li>[ ] Trascrizioni per tutti i video</li>\n<li>[ ] Schema ImageObject/VideoObject implementato</li>\n<li>[ ] Caption che contestualizzano figure nel testo</li>\n</ul>\n<h3>Monitoring</h3>\n<ul>\n<li>[ ] Tracciare attività AI crawler nei server logs</li>\n<li>[ ] Monitorare menzioni del brand in risposte ChatGPT/Perplexity/Gemini</li>\n<li>[ ] Analizzare competitor citation share</li>\n<li>[ ] Misurare traffico referral da AI platforms</li>\n<li>[ ] Review mensile delle metriche</li>\n</ul>\n<hr />\n<h2>La finestra di opportunità</h2>\n<p>I dati Cloudflare mostrano che il crawling per AI training domina ancora il traffico, con volumi 8 volte superiori al search crawling e 32 volte superiori al crawling da query utente. Ma il trend è chiaro: il traffico user-action sta crescendo più velocemente di ogni altra categoria.</p>\n<p>Chi implementa l’infrastruttura GEO ora costruisce vantaggi che si accumulano nel tempo. Le citazioni generano altre citazioni. L’autorità riconosciuta dai modelli si rafforza. Il first-mover advantage in questo spazio non riguarda solo il posizionamento tecnico: riguarda la costruzione di una presenza consolidata prima che la competizione si intensifichi.</p>\n<p>Il SEO tradizionale non scompare. Continua a servire il 70% del traffico search che ancora passa per le SERP classiche. Ma il restante 30%, e la sua traiettoria di crescita, richiede strumenti nuovi.</p>\n<hr />\n<h2>Fonti</h2>\n<p>Aggarwal, P., et al. (2024). <a href=\"https://arxiv.org/abs/2311.09735\"><em>GEO: Generative Engine Optimization</em></a>. arXiv:2311.09735. Princeton University, Georgia Tech, Allen Institute for AI, IIT Delhi.</p>\n<p>AI Mode Boost. (2025). <a href=\"https://aimodeboost.com/resources/research/ai-overview-ranking-factors-2025/\"><em>AI Overview Ranking Factors: 2025 Comprehensive Study</em></a>.</p>\n<p>Cloudflare. (2025, December). <a href=\"https://blog.cloudflare.com/from-googlebot-to-gptbot-whos-crawling-your-site-in-2025/\"><em>From Googlebot to GPTBot: Who’s Crawling Your Site in 2025</em></a>. Cloudflare Blog.</p>\n<p>Dataslayer. (2025). <a href=\"https://www.dataslayer.ai/blog/google-ai-overviews-the-end-of-traditional-ctr-and-how-to-adapt-in-2025\"><em>Google AI Overviews Impact 2025: CTR Down 61%</em></a>.</p>\n<p>Howard, J. (2024, September). <a href=\"https://llmstxt.org/\"><em>llms.txt Proposal</em></a>. Answer AI.</p>\n<p>W3C Schema Community. (2024). <a href=\"https://schema.org/docs/documents.html\"><em>Schema Vocabulary Documentation</em></a>.</p>\n<p>SEO Sherpa. (2025, October). <a href=\"https://seosherpa.com/google-ai-search-guidelines/\"><em>Google AI Search Guidelines 2025</em></a>.</p>\n<p>Single Grain. (2025, October). <a href=\"https://www.singlegrain.com/search-everywhere-optimization/google-ai-overviews-the-ultimate-guide-to-ranking-in-2025/\"><em>Google AI Overviews: The Ultimate Guide to Ranking in 2025</em></a>.</p>\n<p>Yoast. (2025). <a href=\"https://yoast.com/structured-data-schema-ultimate-guide/\"><em>Structured Data with Schema for Search and AI</em></a>.</p>\n<p>Overdrive Interactive. (2025, July). <a href=\"https://www.ovrdrv.com/insights/llms-txt-the-new-standard-for-ai-crawling\"><em>LLMs.txt: The New Standard for AI Crawling</em></a>.</p>\n",
      "date_published": "2025-01-04T00:00:00.000Z",
      "date_modified": "2025-01-04T00:00:00.000Z",
      "tags": [
        "GEO",
        "SEO",
        "AI Search",
        "Schema.org",
        "robots.txt",
        "llms.txt",
        "Technical SEO",
        "E-E-A-T"
      ],
      "language": "it",
      "authors": [
        {
          "name": "Irene Burresi"
        }
      ],
      "_localization": {
        "primary": "it",
        "translations": [
          {
            "locale": "en",
            "url": "https://ireneburresi.dev/en/blog/engineering/seo-vs-geo/",
            "title": "From SEO to GEO: Technical Guide to AI Search Optimization"
          }
        ]
      }
    }
  ]
}