Generative Artificial Intelligence

Definizione

Generative AI è una categoria di modelli di machine learning che imparano a riprodurre la distribuzione di probabilità dei dati di training e possono generare contenuto nuovo e statisticamente plausibile. Invece di predire etichette (classificazione) o valori (regressione), i modelli generativi producono output complessi e strutturati.

La generazione avviene tramite sampling dalla distribuzione appresa. Il processo è condizionato su input (prompt), permettendo controllo direzionale del contenuto generato.

Categorie principali

Modelli linguistici (LLM): generano testo. Architettura dominante: Transformer auto-regressivo. Esempi: GPT-4, Claude, Llama. Training objective: predire il token successivo.

Modelli generativi di immagini: generano immagini. Architetture principali:

GAN (Generative Adversarial Networks): addestramento adversariale fra generatore e discriminatore
Diffusion Models: iterative denoising di rumore Gaussiano. SOTA attuale. Esempi: Stable Diffusion, DALL-E 3, Midjourney
Autoregressive: VQ-VAE-2, ImageGPT (legacy, superati da diffusion)

Modelli multimodali: generano o comprendono testo + immagini. Esempi: GPT-4o, Claude 3.5, Gemini 1.5. Architettura: embedding layer unificato per token e immagini.

Modelli per altri domini: audio (Vall-E, TTS), video (Sora, Runway), codice (CodeLlama), molecole (AlphaFold).

Come funziona

Training: il modello apprende a predire il prossimo elemento (token, pixel, frame) dato il precedente. Minimizza una loss function che misura la divergenza fra la distribuzione generata e quella reale.

Generazione: il modello itera nel nuovo contesto:

Prende l’output precedente (o condizionamento iniziale)
Usa la rete neurale per calcolare la distribuzione del prossimo elemento
Campiona dal modello probabilistico
Ripete finché non raggiunge criterio di stop

Decoding strategies:

Greedy: seleziona il token più probabile. Veloce, ma ripetitivo
Sampling: campiona dalla distribuzione. Diverso, ma talvolta incoerente
Beam search: mantiene k ipotesi parallele, scegliendo la sequenza migliore globalmente
Top-k / Top-p: campiona da sottoinsieme dei token più probabili, regolando diversity

Casi d’uso

Content creation: generazione di testo (articoli, creatività), immagini (design, illustrazioni), musica.

Code generation: modelli specializzati (CodeLlama, Copilot) generano codice produttivo, riducendo il time-to-code.

Data augmentation: generare dati sintetici per training di modelli discriminativi, in particolare quando i dati reali sono scarsi.

Question answering e assistenza: LLM generativi forniscono risposte conversazionali, riepilogazione documenti, etc.

Search e recommendation: modelli generativi producono ranking o rerank candidati in base a rilevanza semantica.

Simulation e forecasting: generazione di scenari plausibili, previsioni series temporali.

Considerazioni pratiche

Qualità vs. velocità: beam search produce output migliore ma è 10-100x più lento di greedy. Decoding strategy è tuning parameter critico per production.

Memory: la generazione richiede di mantenere KV-cache per tutta la sequenza generata. A lunghe lunghezze (2K+ token), diventa bottleneck.

Latency: token-per-token generation ha latenza intrinseca. Un modello che genera 100 token con TTFT di 100ms ha latency di ~1 secondo. Non adatto per applicazioni che richiedono sub-100ms response.

Evaluation: le metriche tradizionali (BLEU, ROUGE) hanno correlazione debole con qualità umana. Valutazione spesso rimane manuale o con LLM-as-judge (distortions).

Cost: inference cost è proporzionale ai token generati. Per applicazioni a alto volume, il costo della generazione può superare il costo del training.

Fraintendimenti comuni

”Generative AI crea dal nulla”

Falso. I modelli generativi ricombinano pattern dal training data. Ogni output è una conseguenza del conditioning + distribuzione appresa. Originalità è illusoria.

”La generazione è casuale”

Dipende dalla temperatura e decoding strategy. A temperatura bassa (greedy), è completamente deterministica. A temperatura alta, ha componente stocastica. Non è “casuale” nel senso non-controllato.

”Generative AI è sempre accurata se è confident”

No. Confidence del modello non correlata con accuratezza. Un modello può assegnare alta probabilità a output falso (hallucination). Serve validation esterna.

Termini correlati

LLM: istanza specifica di generative model per linguaggio
Foundation Model: categoria di generative models pre-trained su web-scale
Prompt Engineering: arte di formulare input per controllare output generato
Hallucination: output falsi che modelli generativi producono con confidence
Diffusion Model: architettura alternativa per generazione di immagini

Fonti

Goodfellow, I. et al. (2014). Generative Adversarial Networks. NeurIPS
Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS
Radford, A. et al. (2019). Language Models are Unsupervised Multitask Learners
Stanford AI Index Report 2024: annual benchmark su AI progress