GPT-4 | Irene Burresi

Definizione

GPT-4 è un modello linguistico multimodale di grande scala sviluppato da OpenAI, rilasciato nel marzo 2023. È uno dei modelli di frontier contemporanei (insieme a Claude 3.5, Gemini 1.5) con performance ai massimi livelli su benchmark accademici standardizzati e capacità generaliste impressionanti su task arbitrari.

La denominazione “GPT-4” segna il successo evolutivo dalla serie GPT-2 (2019) e GPT-3 (2020), con miglioramenti sostanziali in accuratezza, affidabilità, riduzione delle hallucination, e abilità multimodali.

Caratteristiche tecniche

Dimensioni e architettura: OpenAI non ha rilasciato dettagli ufficiali. Stima della comunità: ~1.7 trilioni di parametri (non confermato). Architettura: Transformer decoder-only con MoE (Mixture of Experts) probabili per efficienza (inferenze tramite stima expert routing).

Modalità:

Text-in / Text-out: generazione di testo da prompt testuale
Vision: processamento di immagini (aggiunto in GPT-4o, versione multimodale completa)
Context window: 8K tokens (originale), 128K tokens (Turbo, 2024)

Training:

Pre-training su dati web-scale sino ad aprile 2024
Post-training con RLHF e Constitutional AI per allineamento a preferenze umane
Fine-tuning custom disponibile via API

Versioni e Varianti

GPT-4 (originale): marzo 2023, 8K context, performance baseline.

GPT-4 Turbo: novembre 2023, 128K context, ~3x più veloce in inference, costi ridotti (~3x), knowledge cutoff aprile 2024.

GPT-4o: maggio 2024, multimodale nativo (testo + immagini), inference ~2x più veloce di Turbo, costi ~5x inferiori su input.

GPT-4o mini: novembre 2024, modello più piccolo ed economico della linea, performance comparabile a GPT-3.5 Turbo con costi ~10x inferiori.

Performance e Benchmark

Benchmark accademici standardizzati:

MMLU (knowledge generale): 92.3% (GPT-4)
HumanEval (coding): 92% (GPT-4), uno dei più alti
GPQA (reasoning scientifico): 88% (GPT-4)

Comparazione: GPT-3.5 raggiunge ~70% su questi benchmark. Differenza non è marginale ma significativa su task complessi.

Benchmark proprietari: OpenAI non pubblica dettagli su test privacy, affidabilità, riduzione bias. Externa valutazione (LMSYS Chatbot Arena) mostra GPT-4o in top-3 persistentemente.

Casi d’uso

Content creation: redazione, articoli, creatività textuale di qualità professionale.

Code assistance: generazione di codice, debugging, test generation. Performance su coding è fra le migliori.

Analysis: sintesi documenti, estrazione informazioni, Q&A su testi lunghi.

Reasoning complesso: problem solving multi-step, spiegazione concetti astratti, brainstorming.

Assistenza conversazionale: chatbot, customer support, educational tutoring.

Data augmentation: generazione di dati sintetici per training e evaluation.

Considerazioni pratiche

Costi: GPT-4o input $5/MTok, output $15/MTok (maggio 2026). GPT-4o mini input $0.15/MTok, output $0.60/MTok. Differenza di 30-100x vs. modelli open-source local dipende da volume e latency requirements.

Latency: TTFT (time-to-first-token) ~100-500ms su ChatGPT, token generati a ~50-100 tokens/sec. Per applicazioni real-time critiche, latenza può essere vincolante.

Rate limits: API OpenAI ha limiti su richieste/minuto e token/minuto. A scala, rate limit diventa constraint architetturale prima che TCO.

Reliability e moderation: OpenAI applica content filtering su input e output (illegal content, adult, etc.). Può degradare performance su task legittimi che richiedono discussione di argomenti sensibili.

Alternativa open-source: Llama 3, Mistral, Qwen permettono deployment on-premise, senza logging, con customizzazione completa. Trade-off: 10-30% performance inferiore, setup operazionale più complesso.

Fraintendimenti comuni

”GPT-4 capisce realmente quello che dice”

No. GPT-4 predice token probabilisticamente basandosi su pattern statistici. Non ha modello del mondo, credenze, o comprensione cognitiva. Produce output statisticamente plausibili, non necessariamente veritieri.

”GPT-4 è la soluzione giusta per ogni task”

Dipende. Su coding, spiegazione, Q&A generico, è eccellente. Su domini specializzati (medicina legale, finanza), modelli fine-tuned superano spesso GPT-4 in affidabilità. Su compiti che richiedono real-time info, manca knowledge cutoff.

”GPT-4 riduce completamente le hallucination”

No. Riduce significativamente rispetto a GPT-3.5 (~30% meno hallucination su benchmark), ma il fenomeno persiste. Validation esterna rimane necessaria per applicazioni critical.

Termini correlati

LLM: categoria di cui GPT-4 è esempio
OpenAI: organizzazione che sviluppa GPT-4
Transformer: architettura sottostante
RLHF: tecnica di allineamento usata per training di GPT-4
Prompt Engineering: arte di ottimizzare input per sfruttare al massimo capacità di GPT-4

Fonti

OpenAI. GPT-4 Technical Report. arXiv:2303.08774
OpenAI. GPT-4 System Card
OpenAI Platform - GPT Models
LMSYS Chatbot Arena Leaderboard: valutazione indipendente