Definizione
Generative AI è una categoria di modelli di machine learning che imparano a riprodurre la distribuzione di probabilità dei dati di training e possono generare contenuto nuovo e statisticamente plausibile. Invece di predire etichette (classificazione) o valori (regressione), i modelli generativi producono output complessi e strutturati.
La generazione avviene tramite sampling dalla distribuzione appresa. Il processo è condizionato su input (prompt), permettendo controllo direzionale del contenuto generato.
Categorie principali
Modelli linguistici (LLM): generano testo. Architettura dominante: Transformer auto-regressivo. Esempi: GPT-4, Claude, Llama. Training objective: predire il token successivo.
Modelli generativi di immagini: generano immagini. Architetture principali:
- GAN (Generative Adversarial Networks): addestramento adversariale fra generatore e discriminatore
- Diffusion Models: iterative denoising di rumore Gaussiano. SOTA attuale. Esempi: Stable Diffusion, DALL-E 3, Midjourney
- Autoregressive: VQ-VAE-2, ImageGPT (legacy, superati da diffusion)
Modelli multimodali: generano o comprendono testo + immagini. Esempi: GPT-4o, Claude 3.5, Gemini 1.5. Architettura: embedding layer unificato per token e immagini.
Modelli per altri domini: audio (Vall-E, TTS), video (Sora, Runway), codice (CodeLlama), molecole (AlphaFold).
Come funziona
Training: il modello apprende a predire il prossimo elemento (token, pixel, frame) dato il precedente. Minimizza una loss function che misura la divergenza fra la distribuzione generata e quella reale.
Generazione: il modello itera nel nuovo contesto:
- Prende l’output precedente (o condizionamento iniziale)
- Usa la rete neurale per calcolare la distribuzione del prossimo elemento
- Campiona dal modello probabilistico
- Ripete finché non raggiunge criterio di stop
Decoding strategies:
- Greedy: seleziona il token più probabile. Veloce, ma ripetitivo
- Sampling: campiona dalla distribuzione. Diverso, ma talvolta incoerente
- Beam search: mantiene k ipotesi parallele, scegliendo la sequenza migliore globalmente
- Top-k / Top-p: campiona da sottoinsieme dei token più probabili, regolando diversity
Casi d’uso
Content creation: generazione di testo (articoli, creatività), immagini (design, illustrazioni), musica.
Code generation: modelli specializzati (CodeLlama, Copilot) generano codice produttivo, riducendo il time-to-code.
Data augmentation: generare dati sintetici per training di modelli discriminativi, in particolare quando i dati reali sono scarsi.
Question answering e assistenza: LLM generativi forniscono risposte conversazionali, riepilogazione documenti, etc.
Search e recommendation: modelli generativi producono ranking o rerank candidati in base a rilevanza semantica.
Simulation e forecasting: generazione di scenari plausibili, previsioni series temporali.
Considerazioni pratiche
Qualità vs. velocità: beam search produce output migliore ma è 10-100x più lento di greedy. Decoding strategy è tuning parameter critico per production.
Memory: la generazione richiede di mantenere KV-cache per tutta la sequenza generata. A lunghe lunghezze (2K+ token), diventa bottleneck.
Latency: token-per-token generation ha latenza intrinseca. Un modello che genera 100 token con TTFT di 100ms ha latency di ~1 secondo. Non adatto per applicazioni che richiedono sub-100ms response.
Evaluation: le metriche tradizionali (BLEU, ROUGE) hanno correlazione debole con qualità umana. Valutazione spesso rimane manuale o con LLM-as-judge (distortions).
Cost: inference cost è proporzionale ai token generati. Per applicazioni a alto volume, il costo della generazione può superare il costo del training.
Fraintendimenti comuni
”Generative AI crea dal nulla”
Falso. I modelli generativi ricombinano pattern dal training data. Ogni output è una conseguenza del conditioning + distribuzione appresa. Originalità è illusoria.
”La generazione è casuale”
Dipende dalla temperatura e decoding strategy. A temperatura bassa (greedy), è completamente deterministica. A temperatura alta, ha componente stocastica. Non è “casuale” nel senso non-controllato.
”Generative AI è sempre accurata se è confident”
No. Confidence del modello non correlata con accuratezza. Un modello può assegnare alta probabilità a output falso (hallucination). Serve validation esterna.
Termini correlati
- LLM: istanza specifica di generative model per linguaggio
- Foundation Model: categoria di generative models pre-trained su web-scale
- Prompt Engineering: arte di formulare input per controllare output generato
- Hallucination: output falsi che modelli generativi producono con confidence
- Diffusion Model: architettura alternativa per generazione di immagini
Fonti
- Goodfellow, I. et al. (2014). Generative Adversarial Networks. NeurIPS
- Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS
- Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners
- Stanford AI Index Report 2024: annual benchmark su AI progress