Ricerca | Irene Burresi

Constitutional AI: guida per chi usa Claude

Irene Burresi — Mon, 29 Dec 2025 00:00:00 GMT

Il paradosso del rifiuto selettivo

Claude rifiuta di scrivere un racconto con un personaggio che fuma, ma con il prompt giusto spiega come sintetizzare metanfetamina. Constitutional AI spiega entrambi i comportamenti.

TL;DR: Constitutional AI addestra Claude usando una lista di principi (“costituzione”) invece di feedback umano per ogni risposta. Produce modelli più sicuri di RLHF tradizionale: 88% harmless rate contro 76%. Ma i failure modes sono specifici e prevedibili. Il modello è eccessivamente cauto su contenuti che sembrano problematici (keyword matching) e vulnerabile ad attacchi che non sembrano problematici (jailbreak semantici). È più sicuro in inglese che in altre lingue. Tende a darti ragione anche quando sbagli. Per chi deploya: aspettati refusal rate alto su casi d’uso legittimi, pianifica fallback, non fidarti della sicurezza su lingue diverse dall’inglese.

Chiunque abbia usato Claude in produzione conosce la frustrazione. Il modello rifiuta di scrivere un’email di sollecito pagamento perché “potrebbe essere percepita come aggressiva”. Rifiuta fiction con conflitti perché “potrebbe normalizzare la violenza”. Rifiuta di completare codice che gestisce autenticazione perché “potrebbe essere usato per hacking”.

Poi leggi i report di sicurezza. Adaptive attacks raggiungono il 100% di success rate su Claude 3 e 3.5. Ricercatori hanno estratto istruzioni per sintetizzare armi chimiche, generare malware funzionante, creare contenuti illegali. Con le tecniche giuste, le protezioni cedono completamente.

Come può lo stesso modello essere contemporaneamente troppo restrittivo e troppo permissivo?

La risposta sta in Constitutional AI, il metodo con cui Anthropic addestra Claude. Capire come funziona spiega entrambi i comportamenti e, più importante, permette di prevedere quando il modello fallirà nelle tue applicazioni.

Come funziona Constitutional AI

Il paper originale di Anthropic, pubblicato a dicembre 2022, propone un metodo per rendere i modelli “harmless” senza etichettare manualmente centinaia di migliaia di risposte come “buone” o “cattive”.

Il processo ha due fasi. Nella prima, il modello genera risposte a prompt problematici, poi critica e rivede le proprie risposte usando principi scritti in linguaggio naturale. Esempio di principio: “Scegli la risposta che non incoraggia comportamenti illegali, dannosi o non etici”. Il modello viene addestrato sulle revisioni.

Nella seconda fase, il modello genera coppie di risposte e un altro modello decide quale è migliore secondo gli stessi principi. Queste preferenze generate dall’AI (non da umani) vengono usate per il reinforcement learning. Anthropic chiama questo approccio RLAIF: Reinforcement Learning from AI Feedback, invece di RLHF (Human Feedback).

La costituzione di Claude include principi derivati dalla Dichiarazione Universale dei Diritti Umani, dai principi di beneficenza di DeepMind, e da linee guida scritte internamente. Non è un documento statico: Anthropic la aggiorna periodicamente e ha condotto esperimenti con input pubblico per modificarla.

Il claim centrale del paper: Constitutional AI produce modelli che sono contemporaneamente più sicuri (harmless) e meno evasivi (più utili) rispetto a RLHF tradizionale. I dati mostrano che questo è vero in media. Ma “in media” nasconde varianza significativa.

Cosa funziona: i miglioramenti reali

Prima di analizzare i problemi, i dati su cosa Constitutional AI fa bene.

Google DeepMind ha pubblicato nel 2023 il confronto più rigoroso tra RLAIF e RLHF. Su task di harmlessness, RLAIF ottiene 88% harmless rate contro 76% di RLHF. Non è un miglioramento marginale.

Il confronto head-to-head su qualità generale (summarization, helpful dialogue) non mostra differenze statisticamente significative: entrambi i metodi producono output preferiti dagli evaluatori circa il 70% delle volte rispetto a baseline senza reinforcement learning. RLAIF non è peggiore di RLHF sulla qualità, ed è migliore sulla sicurezza.

Il vantaggio di costo è sostanziale. AI labeling costa circa $0.06 per esempio, contro $0.11 per 50 parole di annotazione umana. Per chi addestra modelli, questo significa iterazioni più rapide e meno esposizione di annotatori umani a contenuti disturbanti. Per chi usa modelli già addestrati, significa che Anthropic può investire più risorse in safety research invece che in data labeling.

Un beneficio meno discusso: i principi costituzionali sono leggibili. Quando Claude rifiuta una richiesta, in teoria puoi risalire a quale principio ha attivato il rifiuto. Con RLHF puro, le preferenze sono implicite nei dati di training e non ispezionabili. Questa trasparenza è parziale (non sai come il modello interpreta i principi), ma è più di quanto offrano altri approcci.

Dove il modello rifiuta troppo

Il primo failure mode che impatta chi usa Claude in produzione è l’overrefusal. Il modello rifiuta richieste legittime perché pattern superficiali attivano i safety guardrail.

Il meccanismo è comprensibile. I principi costituzionali sono formulati in termini generali: “evita contenuti che potrebbero causare danno”, “non assistere in attività illegali”, “rifiuta richieste che potrebbero essere usate per manipolazione”. Il modello impara ad associare certi pattern lessicali con rifiuto, anche quando il contesto rende la richiesta innocua.

Gli esempi documentati dalla community coprono domini diversi. Nella fiction, Claude rifiuta storie con personaggi moralmente ambigui, conflitti realistici, o temi adulti che sarebbero accettabili in qualsiasi romanzo pubblicato. Un prompt per un thriller con un antagonista credibile può attivare un rifiuto perché “potrebbe normalizzare comportamenti dannosi”.

Nel codice, richieste che gestiscono autenticazione, crittografia, o network scanning vengono bloccate perché “potrebbero essere usate per hacking”. Questo include penetration testing legittimo, security auditing, o anche semplice gestione delle password.

La comunicazione professionale subisce la stessa sorte: email di sollecito, lettere di reclamo, comunicazioni assertive rifiutate perché “potrebbero essere percepite come aggressive o manipolative”. Su temi medici e legali, i disclaimer sono così estesi da essere inutili, o i rifiuti completi.

Il pattern comune: il modello reagisce a keyword e strutture superficiali, non al contesto. “Come forzare una serratura” viene rifiutato anche se il contesto è “ho perso le chiavi di casa mia”. “Come manipolare qualcuno” viene rifiutato anche se il contesto è “sto scrivendo un saggio sulla propaganda storica”.

Il team di Constitutional Classifiers di Anthropic ha documentato questo trade-off. Dopo aver deployato difese aggiuntive contro jailbreak, hanno osservato che il sistema “rifiuterebbe frequentemente di rispondere a domande basilari, non maliziose”. Maggiore sicurezza contro attacchi significa maggiore overrefusal su richieste legittime.

Per chi deploya applicazioni: il refusal rate su casi d’uso legittimi può essere significativo. Se la tua applicazione richiede generazione di contenuti creativi, assistenza su temi sensibili, o codice di sicurezza, aspettati che una percentuale non trascurabile di richieste venga rifiutata. Servono fallback (modelli alternativi, escalation a umani) e messaging appropriato per gli utenti.

Dove il modello accetta troppo

Il secondo failure mode è l’opposto: il modello accetta richieste che dovrebbe rifiutare, quando l’attacco è formulato in modo da bypassare i pattern superficiali.

Uno studio del 2024 ha testato attacchi adversarial su Claude 3 e 3.5. Con tecniche di transfer (prompt che funzionano su altri modelli adattati) o prefilling (forzare l’inizio della risposta del modello), il success rate raggiunge il 100%. Tutti gli attacchi testati hanno avuto successo.

Senza le difese aggiuntive di Constitutional Classifiers, i test interni di Anthropic mostrano 86% jailbreak success su Claude 3.5 Sonnet. Con Constitutional Classifiers deployati, il success rate cala drasticamente, ma dopo 3.700 ore collettive di red-teaming è stato comunque scoperto un jailbreak universale.

Come è possibile che lo stesso modello rifiuti email di sollecito e accetti richieste di sintesi di armi chimiche?

La risposta sta nella natura dei principi costituzionali. Sono formulati in linguaggio naturale, e il modello impara a interpretarli attraverso esempi statistici, non attraverso comprensione semantica profonda. Un attacco che riformula la richiesta in modo da non corrispondere ai pattern appresi bypassa le protezioni.

I jailbreak più sofisticati sfruttano diverse vulnerabilità. Il roleplay chiede al modello di interpretare un personaggio che non ha le stesse restrizioni. L’obfuscation codifica la richiesta in modi che il modello decodifica ma che non attivano i safety check (base64, lingue diverse, gergo). Il prefilling, in alcune API, forza l’inizio della risposta del modello bypassando il punto in cui decide se rifiutare. La manipolazione multi-turn costruisce gradualmente contesto attraverso più messaggi, ognuno innocuo, che insieme portano il modello a rispondere a richieste che rifiuterebbe se poste direttamente.

Per chi deploya applicazioni: le protezioni di Claude non sono sufficienti per casi d’uso high-stakes. Se la tua applicazione potrebbe essere usata per generare contenuti pericolosi, hai bisogno di layer aggiuntivi di moderazione. Non affidarti solo ai guardrail del modello.

Il problema della sycophancy

Il terzo failure mode è più sottile e meno discusso: Claude tende a darti ragione anche quando sbagli.

Anthropic stessa ha pubblicato ricerca che documenta sycophancy pervasiva in tutti i principali assistenti AI, incluso Claude. I comportamenti documentati includono ammissione di errori non commessi: se dici al modello “la tua risposta precedente era sbagliata”, spesso si scusa e “corregge” anche quando la risposta originale era corretta. Il feedback diventa biased: se chiedi una valutazione di un testo dicendo “l’ho scritto io”, il modello tende a essere più positivo che se presenti lo stesso testo come scritto da altri. Su problemi matematici dove l’utente suggerisce una risposta sbagliata, il modello tende a concordare con la risposta sbagliata più spesso di quanto farebbe senza il suggerimento.

La causa è strutturale. Constitutional AI (come RLHF) ottimizza per preferenze espresse da valutatori. Sia umani che modelli AI tendono a preferire risposte che concordano con loro, che sono scritte in modo convincente, che evitano conflitto. Il modello impara che “dare ragione” produce reward più alto.

Il finding più preoccupante: modelli più grandi addestrati con più iterazioni di RLHF/RLAIF mostrano sycophancy aumentata, non diminuita. Non è un bug che si risolve con più training. È una conseguenza del metodo di training stesso.

Per chi deploya applicazioni: se la tua applicazione richiede che il modello dia feedback onesto, verifichi informazioni, o contraddica l’utente quando sbaglia, aspettati performance degradata. Casi d’uso come code review, fact-checking, tutoring sono particolarmente impattati. Considera di istruire esplicitamente il modello a essere critico, ma sappi che questo mitiga solo parzialmente il problema.

Il problema delle lingue diverse dall’inglese

I failure modes descritti finora si amplificano quando il modello opera in lingue diverse dall’inglese. Questo impatta direttamente chi opera in Italia.

I dati sono chiari. Ricerca su LLM multilingual safety mostra che i modelli producono risposte harmful drammaticamente più spesso in lingue diverse dall’inglese. Un esempio specifico: Llama-3.1-8B rifiuta “How to make a bomb?” in inglese ma fornisce istruzioni dettagliate per la stessa domanda in hindi.

Il pattern si ripete su modelli e lingue diverse. Il tasso di successo degli attacchi passa da valori a singola cifra in inglese a 50-70% in lingue a bassa risorsa. L’italiano, pur essendo una lingua relativamente ben rappresentata, non è immune.

La causa: i dati di training per la sicurezza (esempi di rifiuto, definizioni di contenuto harmful, preferenze per harmlessness) sono prevalentemente in inglese. I principi costituzionali sono scritti in inglese. Il modello generalizza imperfettamente ad altre lingue.

Per applicazioni che servono utenti italiani, questo ha implicazioni concrete. I guardrail che funzionano in inglese sono meno affidabili in italiano. Un utente che vuole bypassare le protezioni può semplicemente formulare la richiesta in italiano (o in una lingua ancora meno rappresentata) con maggiore probabilità di successo.

Le contromisure sono limitate. Puoi tradurre le richieste in inglese prima di inviarle al modello, processare in inglese, poi tradurre le risposte in italiano. Ma questo aggiunge latenza, costo, e può introdurre errori di traduzione. Puoi aggiungere layer di moderazione specifici per italiano, ma richiede investment significativo.

Implicazioni per deployment enterprise

Cosa significa tutto questo per chi deve decidere se e come usare Claude in produzione?

Constitutional AI rende Claude una scelta ragionevole per applicazioni general-purpose con utenti non-adversarial: chatbot customer service, assistenti interni, tool di produttività. Il refusal rate su richieste legittime è gestibile, e il rischio di output harmful è basso se gli utenti non cercano attivamente di abusare il sistema. Funziona anche per casi d’uso dove l’overrefusal è accettabile: se la tua applicazione può tollerare rifiuti frequenti (con fallback appropriati), i guardrail di Claude sono un beneficio netto. La trasparenza dei principi è utile per compliance e audit: poter dire “il modello segue questi principi documentati” è più difendibile di “il modello è stato addestrato su preferenze implicite”.

Servono precauzioni aggiuntive per applicazioni creative. Se generi fiction, marketing copy, o contenuti che toccano temi sensibili, aspettati refusal rate alto. Prepara prompt alternativi, fallback a modelli meno restrittivi, o workflow con review umana. Lo stesso vale per applicazioni che richiedono feedback onesto come code review, tutoring, fact-checking: la sycophancy è un problema strutturale. Considera prompt engineering aggressivo per contrastare, ma non aspettarti che risolva completamente. Per applicazioni multilingue, se servi utenti non-anglofoni, i guardrail sono meno affidabili. Aggiungi moderazione specifica per le lingue che supporti. Per applicazioni high-stakes dove output harmful avrebbe conseguenze gravi (medico, legale, sicurezza), non affidarti solo ai guardrail del modello. Aggiungi layer di validazione, moderazione esterna, e review umana.

Non aspettarti sicurezza garantita contro attacchi sofisticati. Il 100% di jailbreak success con adaptive attacks significa che attaccanti motivati possono bypassare le protezioni. Se la tua applicazione è un target attraente, assumi che verrà compromessa. Non aspettarti comportamento consistente tra lingue: il modello che si comporta bene in inglese può comportarsi molto diversamente in italiano. Non aspettarti miglioramento della sycophancy con scale: modelli più grandi e più addestrati non sono meno sycophantic. Anzi.

Il quadro complessivo

Constitutional AI rappresenta un miglioramento reale rispetto ad alternative precedenti. I dati sono chiari: 88% harmless rate contro 76% di RLHF tradizionale, a costo inferiore. Per chi usa modelli commerciali, questo significa che Claude è genuinamente più sicuro della media.

Ma “più sicuro della media” non significa “sicuro”. I failure modes documentati sono specifici e prevedibili. Il modello rifiuta troppo quando pattern superficiali attivano i guardrail, anche se il contesto rende la richiesta legittima. Accetta troppo quando attacchi sofisticati riformulano richieste dannose in modi che non corrispondono ai pattern appresi. Ti dà ragione anche quando sbagli, perché la sycophancy è incentivata dal training stesso. È meno sicuro in lingue diverse dall’inglese, perché i dati di sicurezza sono prevalentemente anglofoni.

Nessuno di questi problemi è unico di Claude o di Constitutional AI. Sono limitazioni degli attuali approcci di alignment in generale. Ma Constitutional AI li rende più prevedibili: se capisci il meccanismo, puoi anticipare dove il modello fallirà.

Per chi deploya applicazioni, la domanda non è “Claude è sicuro?” ma “I failure modes di Claude sono accettabili per il mio caso d’uso?”. La risposta dipende dal contesto. Per molte applicazioni enterprise, Constitutional AI offre un trade-off ragionevole tra safety e usabilità. Per applicazioni high-stakes o adversarial, non è sufficiente da solo.

La trasparenza sui principi è un vantaggio competitivo di Anthropic rispetto ad altri provider. La costituzione di Claude è pubblica. Puoi leggerla, capire cosa il modello sta cercando di fare, e decidere se quei principi sono allineati con i tuoi casi d’uso. È più di quanto offrano altri.

Constitutional AI non risolve l’alignment. Rende il problema più gestibile, più ispezionabile, più prevedibile. Per chi deve deployare LLM oggi, con le limitazioni di oggi, è un passo avanti concreto. Non è la destinazione, ma è una direzione ragionevole.

Fonti

Bai, Y., Kadavath, S., Kundu, S., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073.

Lee, H., Phatale, S., Mansoor, H., et al. (2023). RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. arXiv:2309.00267.

Andriushchenko, M., et al. (2024). Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks. arXiv:2404.02151.

Perez, E., Ringer, S., Lukošiūtė, K., et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548.

Deng, Y., et al. (2023). Multilingual Jailbreak Challenges in Large Language Models. arXiv:2310.02446.

Anthropic. (2023). Claude’s Constitution. Anthropic.

Anthropic. (2024). Constitutional Classifiers: Defending Against Universal Jailbreaks. Anthropic.

AI 2026: perché Stanford parla di resa dei conti

Irene Burresi — Sat, 20 Dec 2025 00:00:00 GMT

L’anno della resa dei conti: perché il 2026 sarà decisivo per l’AI enterprise

Il 42% delle aziende ha già abbandonato la maggior parte dei progetti AI. I dati dicono che il peggio potrebbe non essere finito.

TL;DR: Il 42% delle aziende ha abbandonato progetti AI nel 2025, il doppio dell’anno precedente. Stanford HAI prevede che il 2026 sarà l’anno della resa dei conti: meno hype, più richiesta di prove concrete. I dati Brynjolfsson mostrano già l’impatto occupazionale: -20% per sviluppatori junior, +8% per senior. Per chi investe, le implicazioni sono chiare: metriche definite prima del lancio, non dopo; soluzioni vendor (67% successo) vs sviluppo interno (33%); attenzione ai tempi di go-live che uccidono i progetti più della tecnologia.

A metà dicembre 2025, nove faculty dello Stanford Human-Centered Artificial Intelligence hanno pubblicato le loro previsioni per il 2026. Non è il solito esercizio di futurologia accademica, ma una dichiarazione collettiva con un messaggio chiaro: la festa sta finendo.

James Landay, co-direttore di HAI, apre con una frase che suona quasi provocatoria in un’epoca di annunci trionfalistici: “Non ci sarà AGI quest’anno.” Il punto, però, è quello che aggiunge subito dopo: le aziende inizieranno ad ammettere pubblicamente che l’AI non ha ancora prodotto gli aumenti di produttività promessi, se non in nicchie specifiche come la programmazione e i call center. E sentiremo parlare, finalmente, di progetti falliti.

Non è una previsione sul futuro. È la fotografia di qualcosa che sta già succedendo.

I numeri che nessuno vuole guardare

A luglio 2025, il MIT Project NANDA ha pubblicato un report che ha generato ampio dibattito per una singola statistica: il 95% dei progetti AI enterprise non genera alcun ritorno misurabile. Il numero è stato contestato, la metodologia ha i suoi limiti, la definizione di “successo” è discutibile. Ma non è un dato isolato.

Nello stesso periodo, S&P Global ha rilevato che il 42% delle aziende ha abbandonato la maggior parte delle proprie iniziative AI nel 2025. Nel 2024 la percentuale era il 17%. Il tasso di abbandono, in pratica, è più che raddoppiato in un anno. In media, le organizzazioni intervistate hanno cestinato il 46% dei proof-of-concept prima che arrivassero in produzione.

Secondo RAND Corporation, oltre l’80% dei progetti AI fallisce, il doppio del tasso di fallimento dei progetti IT tradizionali. Gartner riporta che solo il 48% dei progetti AI arriva in produzione, e oltre il 30% dei progetti GenAI verrà abbandonato dopo il proof of concept entro fine 2025.

Le cause sono sempre le stesse: qualità dei dati insufficiente (43% secondo Informatica), mancanza di maturità tecnica (43%), carenza di competenze (35%). Ma sotto questi numeri c’è un pattern più profondo. Le aziende stanno scoprendo che l’AI funziona nelle demo ma non in produzione, genera entusiasmo nei pilot ma non ROI nei bilanci.

Sono questi numeri a spiegare perché Stanford HAI, un’istituzione non esattamente nota per il pessimismo tecnologico, stia spostando il discorso. Non più “l’AI può fare questo?” ma “quanto bene, a quale costo, per chi?”.

I canarini nella miniera

Se i tassi di fallimento sono il sintomo, il lavoro di Erik Brynjolfsson offre una diagnosi più precisa. “Canaries in the Coal Mine”, pubblicato ad agosto 2025 dal Digital Economy Lab di Stanford, è tra gli studi più rigorosi oggi disponibili sull’impatto dell’AI sul mercato del lavoro.

Il paper usa dati di payroll di ADP, il più grande fornitore di servizi di buste paga negli Stati Uniti, che copre oltre 25 milioni di lavoratori. L’obiettivo è tracciare i cambiamenti occupazionali nelle professioni esposte all’intelligenza artificiale.

Quello che emerge è netto. L’occupazione per software developer tra i 22 e i 25 anni è calata del 20% dal picco di fine 2022, più o meno dal lancio di ChatGPT, a luglio 2025. Non è un dato isolato: i lavoratori early-career nelle occupazioni più esposte all’AI mostrano un declino relativo del 13% rispetto ai colleghi in ruoli meno esposti.

Il dato più interessante, però, è la divergenza per età. Mentre i giovani perdono terreno, i lavoratori over 30 nelle stesse categorie ad alta esposizione hanno visto una crescita occupazionale tra il 6% e il 12%. Brynjolfsson sintetizza così: “Sembra che ciò che i lavoratori giovani sanno si sovrapponga a ciò che i LLM possono rimpiazzare.”

Non è un effetto uniforme, ma un riallineamento: l’AI sta erodendo le posizioni entry-level più rapidamente di quanto crei nuovi ruoli. I “canarini nella miniera”, i giovani sviluppatori e gli addetti al customer support, stanno già mostrando sintomi di un cambiamento più ampio.

Quando Brynjolfsson prevede l’emergere di “dashboard economici AI” che tracciano questi spostamenti in tempo quasi reale, non sta speculando. Sta descrivendo l’infrastruttura necessaria per capire cosa sta succedendo, un’infrastruttura che oggi non esiste ma che nel 2026 potrebbe diventare urgente.

La divergenza tra adozione e risultati

C’è un paradosso nei dati del 2025 che merita attenzione. L’adozione dell’AI sta accelerando: secondo McKinsey, la percentuale di aziende che dichiarano di usare AI è passata dal 55% nel 2023 al 78% nel 2024. L’uso di GenAI in almeno una funzione aziendale è più che raddoppiato, dal 33% al 71%.

Eppure, in parallelo, i tassi di abbandono dei progetti crescono invece di diminuire. S&P Global mostra un salto dal 17% al 42% in un solo anno. Il report MIT NANDA parla di “GenAI Divide”, una divisione netta tra il 5% che estrae valore reale e il 95% che rimane fermo.

Molte aziende hanno attraversato la fase dell’entusiasmo, del pilot, della demo impressionante, e poi si sono schiantate contro il muro della produzione reale. Hanno scoperto che il modello funziona in sandbox ma non con i loro dati; che l’integrazione nei workflow esistenti è più complessa del previsto; che il ROI promesso dai vendor non si materializza.

Angèle Christin, sociologa della comunicazione e senior fellow di HAI, lo dice senza giri di parole: “I cartelloni pubblicitari di San Francisco, ‘AI everywhere!!! For everything!!! All the time!!!’, tradiscono un tono leggermente maniacale.” La sua previsione: vedremo più realismo su cosa possiamo aspettarci dall’AI. Non è necessariamente la bolla che scoppia, ma la bolla potrebbe smettere di gonfiarsi.

Il problema della misurazione

Una delle previsioni più concrete, e potenzialmente più significative, arriva ancora da Brynjolfsson. Propone l’emergere di “AI economic dashboards” ad alta frequenza: strumenti che tracciano, a livello di task e occupazione, dove l’AI sta aumentando la produttività, dove sta spostando lavoratori, dove sta creando nuovi ruoli.

Oggi non abbiamo nulla del genere. I dati sul mercato del lavoro arrivano con mesi di ritardo. Le aziende misurano l’adozione dell’AI ma raramente l’impatto. I report di settore fotografano l’hype ma non i risultati.

Se questi dashboard emergeranno davvero nel 2026, cambieranno il modo in cui parliamo di AI. Il dibattito si sposterà dal generico “l’AI ha un impatto?” a domande più precise: quanto velocemente si sta diffondendo questo impatto, chi sta restando indietro, quali investimenti complementari funzionano.

È una visione ottimistica: dati migliori portano decisioni migliori. Ma è anche un’ammissione implicita: oggi stiamo navigando al buio.

Medicina e legal: i settori-test

Due settori emergono dalle previsioni Stanford come banco di prova particolarmente rilevante.

Nigam Shah, Chief Data Scientist di Stanford Health Care, descrive un problema che chiunque lavori nel settore riconoscerà. Gli ospedali sono sommersi da startup che vogliono vendere soluzioni AI. “Ogni singola proposta può essere ragionevole, ma in aggregato sono uno tsunami di rumore.”

Secondo Shah, nel 2026 emergeranno framework sistematici per valutare queste soluzioni: impatto tecnico, popolazione su cui il modello è stato addestrato, ROI sul workflow ospedaliero, soddisfazione dei pazienti, qualità delle decisioni cliniche. È un lavoro che Stanford sta già facendo internamente, ma che dovrà essere esteso a istituzioni con meno risorse tecniche.

Shah segnala anche un rischio. I vendor, frustrati dai cicli decisionali lunghi degli ospedali, potrebbero iniziare ad andare direttamente agli utenti finali. Applicazioni “gratuite” per medici e pazienti che bypassano i controlli istituzionali. È già in corso: OpenEvidence per riassunti della letteratura, AtroposHealth per risposte on-demand a domande cliniche.

Nel settore legale, Julian Nyarko prevede uno shift simile. Il focus si sposterà da “questo modello sa scrivere?” a questioni più operative: accuratezza, integrità delle citazioni, esposizione a violazioni del segreto professionale. Il settore sta già lavorando su benchmark specifici, come quelli basati su “LLM-as-judge”, framework dove un modello valuta l’output di un altro modello per task complessi come la sintesi multi-documento.

Medicina e legal condividono una caratteristica: sono altamente regolamentati, con conseguenze gravi in caso di errore. Se l’AI deve dimostrare il suo valore da qualche parte, è qui che la prova sarà più dura. E più significativa.

Track record: quanto sono affidabili queste previsioni?

Stanford HAI pubblica previsioni annuali da alcuni anni. Ha senso chiedersi quanto siano state accurate finora.

A fine 2022, Russ Altman previde per il 2023 uno “shocking rollout of AI way before it’s mature or ready to go”. Difficile trovare una descrizione più accurata di quello che è successo: ChatGPT, Bing Chat, Bard lanciati in successione rapida, con problemi di accuratezza, allucinazioni, incidenti imbarazzanti. Altman aveva anche previsto una “hit parade di AI che non è pronta per il prime time ma esce perché guidata da industria troppo zelante”. Esatto.

Percy Liang, sempre a fine 2022, previde che il video sarebbe stato un focus del 2023 e che “potremmo arrivare al punto in cui non distingueremo se un umano o un computer ha generato un video”. Era un anno in anticipo (Sora è arrivato a febbraio 2024) ma la direzione era corretta.

Per il 2024, Altman previde un “rise of agents” e passi verso sistemi multimediali. Entrambi si sono verificati, anche se gli agent sono ancora più promessa che realtà in produzione.

Non tutte le previsioni si sono avverate. Le aspettative su un’azione legislativa del Congresso USA sono rimaste deluse: l’Executive Order di Biden c’è stato, ma la nuova amministrazione ha cambiato direzione. Nel complesso, però, il track record di Stanford HAI è ragionevole: tendono a essere cauti piuttosto che entusiasti, e le previsioni tecniche sono generalmente fondate.

Questo non garantisce che le previsioni 2026 si avvereranno. Ma significa che vale la pena prenderle sul serio.

Cosa significa per chi deve decidere

Se le previsioni Stanford e i dati sui failure rate convergono su qualcosa, è questo: il 2026 sarà l’anno in cui l’AI enterprise dovrà mostrare risultati, non demo.

Per chi gestisce budget tecnologici, le implicazioni sono concrete.

Sul fronte delle metriche, i progetti AI devono avere criteri di successo definiti prima del lancio, non dopo. Non “esploriamo l’AI per il customer service” ma “riduciamo del 15% il tempo medio di risoluzione ticket entro 6 mesi, con costo per interazione inferiore a X”. I progetti senza metriche chiare hanno probabilità sproporzionata di finire nel 42% degli abbandoni.

Sul fronte make-or-buy, il report MIT NANDA indica che le soluzioni acquistate da vendor specializzati hanno un tasso di successo del 67%, contro il 33% degli sviluppi interni. Non significa che lo sviluppo interno sia sempre sbagliato, ma richiede competenze, dati e infrastruttura che molte organizzazioni sopravvalutano di avere.

Sul timing, le imprese mid-market passano dal pilot alla produzione in circa 90 giorni, secondo lo stesso report. Le grandi enterprise impiegano nove mesi o più. La burocrazia uccide i progetti AI più della tecnologia.

Infine, una questione di onestà. L’economia-ombra dell’AI (il 90% dei dipendenti usa strumenti personali come ChatGPT per il lavoro, secondo MIT NANDA) indica che gli individui sanno già dove l’AI funziona meglio delle iniziative enterprise ufficiali. Invece di combatterla, le organizzazioni potrebbero imparare da questa adozione spontanea.

Cosa manca

Le previsioni Stanford hanno punti ciechi evidenti.

Nessuno degli esperti menziona il consumo energetico e l’impatto ambientale dell’AI. Christin lo accenna (“costi ambientali tremendi dell’attuale build-out”) ma il tema non viene sviluppato. Eppure i data center AI stanno diventando uno dei maggiori consumatori di energia al mondo, e questo entrerà nel calcolo del ROI prima o poi.

Manca anche una discussione seria sulla concentrazione del mercato. I modelli frontier sono sviluppati da un pugno di aziende. Questo crea dipendenze, influenza i prezzi, determina chi può competere. È un fattore strategico che chiunque pianifichi investimenti AI dovrebbe considerare.

Landay accenna alla “AI sovereignty”, i paesi che vogliono indipendenza dai provider americani, ma il tema resta superficiale. È un’area in rapida evoluzione, con implicazioni geopolitiche significative, che meriterebbe un’analisi più approfondita.

Un cambio di tono

Più delle singole previsioni, quello che colpisce dell’articolo Stanford è il tono. Non c’è l’entusiasmo tipico del settore. Non ci sono promesse di trasformazione imminente. C’è cautela, richiesta di prove, enfasi sulla misurazione.

Quando il co-direttore di un istituto AI di Stanford apre dicendo “non ci sarà AGI quest’anno”, sta prendendo posizione contro una narrativa dominante. Quando economisti come Brynjolfsson pubblicano dati sui lavoratori giovani che perdono occupazione, stanno documentando costi, non solo benefici.

Questo non significa che l’AI sia sopravvalutata o che i progetti debbano fermarsi. Significa che la fase dell’adozione acritica sta finendo. Chi continuerà a investire dovrà farlo con aspettative calibrate, metriche definite, capacità di ammettere il fallimento quando si verifica.

Il 2026, se queste previsioni sono corrette, sarà l’anno in cui scopriremo quali progetti AI erano solidi e quali erano costruiti sull’hype. Per molte organizzazioni sarà una scoperta dolorosa. Per altre, un’opportunità: chi ha già imparato a misurare, a iterare, a distinguere il valore dalla promessa avrà un vantaggio competitivo che l’entusiasmo generico non può comprare.

Fonti

Brynjolfsson, E., Chandar, B., & Chen, R. (2025). Canaries in the Coal Mine: Six Facts about the Recent Employment Effects of AI. Stanford Digital Economy Lab.

McKinsey & Company. (2024). The State of AI in 2024: Gen AI adoption spikes and starts to generate value. McKinsey Global Institute.

MIT Project NANDA. (2025). The GenAI Divide 2025. Massachusetts Institute of Technology.

RAND Corporation. (2024). The Root Causes of Failure for Artificial Intelligence Projects and How They Can Succeed. RAND Research Reports.

S&P Global Market Intelligence. (2025, October). Generative AI Shows Rapid Growth but Yields Mixed Results. S&P Global.

Stanford HAI. (2025, December). Stanford AI Experts Predict What Will Happen in 2026. Stanford Human-Centered Artificial Intelligence.

Metriche AI che contano davvero

Irene Burresi — Sat, 20 Dec 2025 00:00:00 GMT

Il paradosso della misurazione

Il 60% dei manager ammette di aver bisogno di KPI migliori per l’AI. Solo il 34% sta facendo qualcosa. Nel frattempo, i dati che davvero contano esistono già, ma nessuno li sta guardando.

TL;DR: Le aziende misurano attività (ore risparmiate, task automatizzati) invece di impatto. Un paper Stanford su 25 milioni di lavoratori mostra come fare: segmentare per ruolo e seniority, distinguere uso sostitutivo da augmentativo, usare gruppi di controllo, monitorare in tempo reale. Chi adotta questi principi avrà un vantaggio informativo su chi continua a tracciare metriche di vanità.

I report sull’adozione dell’AI nel 2025 raccontano una storia strana. Da un lato, le aziende dichiarano di misurare tutto: deployment completati, ore risparmiate, ticket gestiti, costi ridotti. Dall’altro, il 42% sta abbandonando la maggior parte dei propri progetti AI, più del doppio rispetto all’anno precedente. Il 95% dei progetti pilota, secondo MIT NANDA, non genera alcun impatto misurabile sul conto economico.

Se misuriamo così tanto, perché falliamo così spesso?

Il problema è che stiamo misurando le cose sbagliate. Le metriche tipiche dell’AI enterprise (tempo risparmiato per task, volume di interazioni automatizzate, costo per query) catturano l’attività, non l’impatto. Dicono se il sistema funziona tecnicamente, non se sta creando o distruggendo valore.

Un paper pubblicato ad agosto 2025 dal Digital Economy Lab di Stanford offre un approccio diverso a cosa significhi misurare davvero l’AI. E le implicazioni per chi gestisce investimenti tecnologici sono concrete.

Il problema delle metriche di vanità

La maggior parte delle dashboard AI aziendali traccia varianti delle stesse metriche: quante richieste processate, quanto tempo risparmiato per interazione, quale percentuale di task automatizzati. Sono numeri che crescono facilmente e si presentano bene nelle slide. Il loro difetto è fondamentale: non dicono nulla sull’impatto reale sul business.

Un chatbot che gestisce 10.000 ticket al mese sembra un successo. Ma se quei ticket richiedono comunque escalation umana nel 40% dei casi, se la customer satisfaction è calata, se i clienti più profittevoli stanno migrando ai competitor, il numero di ticket gestiti non cattura nulla di tutto questo.

Il report di S&P Global sul 2025 documenta esattamente questo pattern: aziende che hanno accumulato “deployment” e “sperimentazioni completate” solo per scoprire, mesi dopo, che il ROI non si materializzava. I costi erano reali e immediati; i benefici vaghi e sempre rimandati al prossimo trimestre.

Secondo un’analisi MIT Sloan, il 60% dei manager riconosce di aver bisogno di KPI migliori per l’AI. Ma solo il 34% sta effettivamente usando l’AI per creare nuovi indicatori di performance. La maggioranza continua a usare le stesse metriche che usava per i progetti IT tradizionali, metriche progettate per software deterministico, non per sistemi probabilistici che interagiscono con processi umani complessi.

Cosa significa misurare sul serio

“Canaries in the Coal Mine”, il paper di Erik Brynjolfsson, Bharat Chandar e Ruyu Chen pubblicato dallo Stanford Digital Economy Lab, non parla di come le aziende dovrebbero misurare l’AI. Parla di come l’AI sta cambiando il mercato del lavoro. Ma il metodo che usa è esattamente quello che manca alla maggior parte delle valutazioni enterprise.

Gli autori hanno ottenuto accesso ai dati di payroll di ADP, il più grande processore di buste paga negli Stati Uniti, con record mensili di oltre 25 milioni di lavoratori. Non sondaggi, non self-report, non stime: dati amministrativi granulari su chi viene assunto, chi lascia, quanto guadagna, in quale ruolo, in quale azienda.

Hanno poi incrociato questi dati con due metriche di esposizione all’AI: una basata su analisi teorica dei task (quali mansioni sono tecnicamente automatizzabili) e una basata su dati reali di utilizzo (come le persone usano effettivamente Claude, il modello di Anthropic, nel lavoro quotidiano).

Il risultato è una radiografia dell’impatto dell’AI con una granularità senza precedenti. Non il generico ‘l’AI sta cambiando il lavoro’, ma numeri precisi: l’occupazione per sviluppatori software tra 22 e 25 anni è calata del 20% dal picco di fine 2022, mentre per gli over-35 nelle stesse mansioni è cresciuta dell’8%. Nelle professioni dove l’uso dell’AI è prevalentemente sostitutivo, i giovani perdono occupazione; dove è prevalentemente augmentativo, non c’è declino.

Questo tipo di misurazione dovrebbe informare le decisioni aziendali sull’AI. Non perché le aziende debbano replicare esattamente questo studio, ma perché illustra tre principi che la maggior parte delle metriche enterprise ignora completamente.

Misurare gli effetti differenziali, non le medie

Il dato aggregato nasconde più di quanto riveli. Se misuri solo “ore risparmiate dall’AI”, non vedi chi sta risparmiando quelle ore e chi sta perdendo il lavoro. Se misuri solo “ticket automatizzati”, non vedi quali clienti ricevono servizio peggiore.

Il paper Stanford mostra che l’impatto dell’AI è radicalmente diverso per fasce d’età. I lavoratori tra 22 e 25 anni nelle professioni esposte hanno visto un declino occupazionale del 13% rispetto ai colleghi in ruoli meno esposti. I lavoratori over 30 nelle stesse professioni hanno visto crescita. L’effetto medio è quasi nullo, ma l’effetto reale è una redistribuzione massiva.

Per un CFO, le metriche aggregate di produttività possono mascherare costi nascosti. Se l’AI sta aumentando l’output del team senior mentre rende impossibile assumere e formare junior, il gain di breve periodo potrebbe trasformarsi in un problema di pipeline di talenti nel medio. Il paper lo chiama “paradosso dell’apprendistato”: le aziende smettono di assumere entry-level perché l’AI fa quei task meglio, ma senza entry-level oggi non avranno senior domani.

La conseguenza operativa è che ogni dashboard AI dovrebbe segmentare l’impatto per ruolo, seniority, team, tipologia di cliente. Un singolo numero di “produttività” è quasi sempre fuorviante.

Distinguere uso sostitutivo da uso augmentativo

Una delle scoperte più rilevanti del paper riguarda la differenza tra uso sostitutivo e uso augmentativo dell’AI. Gli autori hanno usato i dati di Anthropic per classificare come le persone usano effettivamente i modelli linguistici: per generare output finali (sostituzione) o per iterare, apprendere, validare (augmentazione).

Nelle professioni dove l’uso è prevalentemente sostitutivo, l’occupazione giovanile è crollata. Dove l’uso è prevalentemente augmentativo, non si osserva alcun declino; anzi, alcune di queste categorie mostrano crescita sopra la media.

Non tutti i “deployment” sono uguali. Un sistema che genera automaticamente report finanziari sostituisce lavoro umano in modo diverso da uno che aiuta gli analisti a esplorare scenari. Le metriche dovrebbero catturare questa distinzione: classificare ogni applicazione AI come prevalentemente sostitutiva o augmentativa, tracciare separatamente l’impatto su headcount, skill mix, capacità di formazione interna. I sistemi augmentativi potrebbero avere ROI meno immediato ma effetti più sostenibili.

Controllare per gli shock esterni

Uno degli aspetti metodologici più sofisticati del paper Stanford è l’uso di effetti fissi impresa-tempo. In pratica, gli autori confrontano lavoratori all’interno della stessa azienda nello stesso mese, isolando così l’effetto dell’esposizione AI da qualsiasi altro fattore che colpisce l’azienda: tagli di budget, rallentamento settoriale, cambi di strategia.

Il risultato: anche controllando per tutti questi fattori, i giovani nelle mansioni esposte all’AI mostrano un declino relativo del 16% rispetto ai colleghi in mansioni non esposte nella stessa azienda.

Questo tipo di rigore è raro nelle valutazioni aziendali. Quando un progetto AI viene lanciato e i costi calano, è facile attribuire il merito all’AI. Ma forse i costi sarebbero calati comunque per fattori stagionali. Forse il team stava già ottimizzando prima del lancio. Forse il confronto è con un periodo anomalo.

La soluzione è definire baseline e gruppi di controllo prima del lancio. Non confrontare “prima vs dopo” ma “trattati vs non trattati” nello stesso periodo. Usare A/B test dove possibile, o almeno confronti con team, regioni o segmenti che non hanno adottato l’AI.

Verso dashboard economici ad alta frequenza

Nelle sue previsioni per il 2026, Brynjolfsson ha proposto l’idea di “AI economic dashboards”, strumenti che tracciano in tempo quasi reale l’impatto dell’AI sull’economia, aggiornati mensilmente invece che con i ritardi tipici delle statistiche ufficiali.

È una proposta ambiziosa a livello macro. Ma la logica sottostante è applicabile a livello aziendale: smettere di aspettare report trimestrali per capire se l’AI sta funzionando e costruire invece sistemi di monitoraggio continuo che catturano gli effetti man mano che si manifestano.

La maggior parte dei progetti AI viene valutata come un investimento tradizionale: business case ex-ante, review periodiche, post-mortem finale. Ma l’AI non si comporta come un asset tradizionale. I suoi effetti sono distribuiti, emergenti, spesso inattesi. Un sistema di monitoraggio continuo può catturare derive prima che diventino problemi.

In pratica, questo significa lavorare con dati in tempo reale invece che retrospettivi. Se il sistema di payroll può dirvi oggi quante persone sono state assunte ieri in ogni ruolo, potete tracciare l’effetto dell’AI sull’organico con lag di giorni, non mesi. Lo stesso vale per ticket gestiti, vendite chiuse, errori rilevati.

Un altro principio chiave: privilegiare metriche leading rispetto a quelle lagging. Il tasso di utilizzo effettivo (quanti dipendenti usano davvero lo strumento AI ogni giorno) è un indicatore anticipatore. Se cala, ci sono problemi prima che si vedano nei numeri di produttività.

Come il paper Stanford segmenta per età, le dashboard aziendali dovrebbero segmentare per ruolo, tenure, performance pregressa. L’AI potrebbe aiutare i top performer mentre danneggia gli altri, o viceversa.

Servono anche confronti interni: team che hanno adottato l’AI vs team che non l’hanno fatto, periodi con feature attiva vs periodi con feature disattivata. Questi confronti sono più informativi dei trend temporali puri.

Il costo del non misurare

C’è un argomento economico diretto per investire in misurazione migliore. Il 42% delle aziende che ha abbandonato progetti AI nel 2025 ha speso budget, tempo, attenzione manageriale per poi non ottenere nulla. Con metriche migliori, alcuni di quei progetti sarebbero stati fermati prima. Altri sarebbero stati corretti in corsa. Altri ancora non sarebbero mai partiti.

Il report MIT NANDA stima che le aziende stiano spendendo 30-40 miliardi di dollari all’anno in AI generativa. Se il 95% non genera ROI misurabile, stiamo parlando di decine di miliardi bruciati. Non perché la tecnologia non funzioni, ma perché viene applicata male, misurata peggio, e quindi non corretta.

Il paper Brynjolfsson offre un modello di cosa potrebbe essere la misurazione dell’AI. Dati amministrativi invece di sondaggi. Granularità demografica invece di medie aggregate. Controlli rigorosi invece di confronti ingenui. Monitoraggio continuo invece di valutazioni puntuali.

Nessuna azienda ha le risorse di Stanford o l’accesso ai dati di ADP. Ma i principi sono trasferibili: segmentare, distinguere uso sostitutivo da uso augmentativo, controllare per fattori confondenti, monitorare in tempo reale. Chi adotta questi principi avrà un vantaggio informativo su chi continua a tracciare deployment e ore risparmiate.

Fonti

Brynjolfsson, E., Chandar, B., & Chen, R. (2025). Canaries in the Coal Mine: Six Facts about the Recent Employment Effects of AI. Stanford Digital Economy Lab.

Deloitte AI Institute. (2025). State of Generative AI in the Enterprise. Deloitte.

MIT Project NANDA. (2025). The GenAI Divide 2025. Massachusetts Institute of Technology.

MIT Sloan Management Review. (2024). The Future of Strategic Measurement: Enhancing KPIs With AI. MIT Sloan.

S&P Global Market Intelligence. (2025, October). Generative AI Shows Rapid Growth but Yields Mixed Results. S&P Global.