Definizione
Una hallucination è un output generato da un modello AI che appare linguisticamente fluente e confidante ma contiene informazioni false, inventate, o non supportate dai dati forniti.
Il termine è mutuato dalla psicologia ma tecnicamente più corretto sarebbe “confabulation”: il modello non percepisce cose che non esistono, ma genera output plausibili basati su pattern statistici, senza verificare la correttezza fattuale.
Tipologie
Intrinsic hallucination: l’output contraddice direttamente l’input o il contesto fornito. Esempio: in un task di summarization, il riassunto include fatti non presenti nel documento originale.
Extrinsic hallucination: l’output include informazioni non verificabili dall’input, che potrebbero essere vere o false. Esempio: il modello aggiunge dettagli non richiesti che non possono essere confermati dal contesto.
Factual hallucination: fatti inventati presentati come veri. Citazioni inesistenti, statistiche false, eventi mai accaduti.
Faithfulness hallucination: in task che richiedono fedeltà a una fonte (RAG, summarization), l’output diverge dal contenuto della fonte.
Perché accadono
Gli LLM sono addestrati a predire il token più probabile data una sequenza. Non hanno un modello interno di “verità” o meccanismi di fact-checking. Se un pattern statistico produce un output plausibile, il modello lo genera, indipendentemente dalla correttezza fattuale.
Fattori che aumentano le hallucination:
- Domande su fatti poco rappresentati nel training
- Richieste di dettagli specifici (nomi, date, numeri)
- Temperature alta (più casualità nella generazione)
- Contesto insufficiente o ambiguo
Mitigazione
RAG: fornire documenti di riferimento nel contesto. Riduce ma non elimina le hallucination.
Grounding: vincolare l’output a fonti specifiche, richiedere citazioni verificabili.
Temperature bassa: riduce la casualità, output più conservativi e ripetibili.
Prompt engineering: istruzioni esplicite (“rispondi solo basandoti sul contesto fornito”, “se non sai, dì che non sai”).
Validation pipeline: verifica automatica degli output contro fonti autorevoli o regole business.
Human-in-the-loop: review umana per applicazioni critiche.
Fraintendimenti comuni
”Le hallucination sono un bug che verrà risolto”
No. Sono conseguenza dell’architettura stessa. Si possono mitigare, non eliminare. I modelli generano output probabilisticamente plausibili, non verificati.
”Se il modello è confidante, ha ragione”
Il livello di confidenza linguistica non correla con l’accuratezza. I modelli sono addestrati a produrre output fluenti, non calibrati sulla propria incertezza.
”RAG risolve il problema”
RAG riduce le hallucination fornendo contesto fattuale, ma il modello può ancora ignorare, fraintendere o integrare il contesto con informazioni inventate.
Termini correlati
- LLM: modelli soggetti a hallucination
- RAG: tecnica di mitigazione parziale
- Prompt Engineering: tecniche per ridurre hallucination
Fonti
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv
- Ji, Z. et al. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys