Definizione
Un Large Language Model (LLM) è un modello di deep learning con miliardi di parametri, addestrato su enormi corpus testuali per predire il token successivo in una sequenza. Questa capacità predittiva emerge come abilità di comprendere, generare e manipolare linguaggio naturale.
Gli LLM moderni sono basati sull’architettura Transformer e vengono addestrati in due fasi: pre-training su dati web-scale (centinaia di miliardi di token) e successivo allineamento tramite RLHF o tecniche simili.
Caratteristiche principali
Scala: i modelli frontier hanno 100B-1T+ parametri. GPT-4 è stimato intorno a 1.7T parametri (non confermato ufficialmente). Modelli più piccoli (7B-70B) offrono trade-off interessanti tra performance e costi.
Emergent abilities: capacità che appaiono solo oltre certe soglie di scala, come ragionamento multi-step, in-context learning, e capacità di seguire istruzioni complesse. Il fenomeno è documentato ma non completamente compreso.
Context window: la quantità di testo che il modello può processare in una singola chiamata. Varia da 4K token (modelli legacy) a 128K-1M+ token (Claude, Gemini). Influenza direttamente i casi d’uso possibili.
Come funziona
L’architettura base prevede:
- Tokenization: il testo viene convertito in token (sub-word units) tramite algoritmi come BPE o SentencePiece
- Embedding: ogni token diventa un vettore denso
- Transformer layers: meccanismi di attention processano la sequenza, catturando dipendenze a lungo raggio
- Output: distribuzione di probabilità sul vocabolario per il prossimo token
Il training avviene su objective di next-token prediction: dato un prefisso, predire il token successivo. Questo task apparentemente semplice, a scala sufficiente, produce capacità generaliste sorprendenti.
Modelli principali (2025)
Closed-source: GPT-4/4o (OpenAI), Claude 3.5 (Anthropic), Gemini 1.5 (Google). Accessibili solo via API, con costi per token.
Open-weights: Llama 3 (Meta), Mistral, Qwen, DeepSeek. Pesi pubblici, deployment locale possibile. Licenze variabili (alcune con restrizioni commerciali).
Benchmark di riferimento: MMLU per conoscenza generale, HumanEval per coding, GPQA per ragionamento scientifico.
Considerazioni pratiche
Costi: variano di 10-100x tra modelli. GPT-4o costa ~$5/milione token input, GPT-4o-mini ~$0.15. La scelta del modello impatta significativamente il TCO di applicazioni production.
Latency: time-to-first-token (TTFT) e token/secondo variano per provider e modello. Per applicazioni real-time, la latenza può essere più vincolante del costo.
Rate limits: le API hanno limiti su richieste/minuto e token/minuto. A scala, diventano un constraint architetturale.
Fraintendimenti comuni
”Gli LLM capiscono quello che dicono”
No. Producono output statisticamente plausibili basandosi su pattern appresi. Non hanno modello del mondo, credenze, o comprensione nel senso cognitivo. Questo spiega le hallucination.
”Il modello più grande è sempre migliore”
Dipende dal task. Per molti casi d’uso, modelli 7B-70B fine-tuned superano modelli 10x più grandi su metriche specifiche, a frazione del costo.
”Gli LLM ricordano le conversazioni precedenti”
No. Ogni chiamata API è stateless. La “memoria” è simulata includendo lo storico nel prompt, consumando context window.
Termini correlati
- Transformer: architettura alla base degli LLM
- Fine-tuning: adattamento di un LLM a task specifici
- RAG: pattern per integrare knowledge esterna negli LLM
- Prompt Engineering: ottimizzazione degli input agli LLM
- Hallucination: output confidenti ma errati
Fonti
- Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv
- Wei, J. et al. (2022). Emergent Abilities of Large Language Models. TMLR
- Artificial Analysis: benchmark indipendente di LLM