Large Language Model (LLM)

Definizione

Un Large Language Model (LLM) è un modello di deep learning con miliardi di parametri, addestrato su enormi corpus testuali per predire il token successivo in una sequenza. Questa capacità predittiva emerge come abilità di comprendere, generare e manipolare linguaggio naturale.

Gli LLM moderni sono basati sull’architettura Transformer e vengono addestrati in due fasi: pre-training su dati web-scale (centinaia di miliardi di token) e successivo allineamento tramite RLHF o tecniche simili.

Caratteristiche principali

Scala: i modelli frontier hanno 100B-1T+ parametri. GPT-4 è stimato intorno a 1.7T parametri (non confermato ufficialmente). Modelli più piccoli (7B-70B) offrono trade-off interessanti tra performance e costi.

Emergent abilities: capacità che appaiono solo oltre certe soglie di scala, come ragionamento multi-step, in-context learning, e capacità di seguire istruzioni complesse. Il fenomeno è documentato ma non completamente compreso.

Context window: la quantità di testo che il modello può processare in una singola chiamata. Varia da 4K token (modelli legacy) a 128K-1M+ token (Claude, Gemini). Influenza direttamente i casi d’uso possibili.

Come funziona

L’architettura base prevede:

Tokenization: il testo viene convertito in token (sub-word units) tramite algoritmi come BPE o SentencePiece
Embedding: ogni token diventa un vettore denso
Transformer layers: meccanismi di attention processano la sequenza, catturando dipendenze a lungo raggio
Output: distribuzione di probabilità sul vocabolario per il prossimo token

Il training avviene su objective di next-token prediction: dato un prefisso, predire il token successivo. Questo task apparentemente semplice, a scala sufficiente, produce capacità generaliste sorprendenti.

Modelli principali (2025)

Closed-source: GPT-4/4o (OpenAI), Claude 3.5 (Anthropic), Gemini 1.5 (Google). Accessibili solo via API, con costi per token.

Open-weights: Llama 3 (Meta), Mistral, Qwen, DeepSeek. Pesi pubblici, deployment locale possibile. Licenze variabili (alcune con restrizioni commerciali).

Benchmark di riferimento: MMLU per conoscenza generale, HumanEval per coding, GPQA per ragionamento scientifico.

Considerazioni pratiche

Costi: variano di 10-100x tra modelli. GPT-4o costa ~$5/milione token input, GPT-4o-mini ~$0.15. La scelta del modello impatta significativamente il TCO di applicazioni production.

Latency: time-to-first-token (TTFT) e token/secondo variano per provider e modello. Per applicazioni real-time, la latenza può essere più vincolante del costo.

Rate limits: le API hanno limiti su richieste/minuto e token/minuto. A scala, diventano un constraint architetturale.

Fraintendimenti comuni

”Gli LLM capiscono quello che dicono”

No. Producono output statisticamente plausibili basandosi su pattern appresi. Non hanno modello del mondo, credenze, o comprensione nel senso cognitivo. Questo spiega le hallucination.

”Il modello più grande è sempre migliore”

Dipende dal task. Per molti casi d’uso, modelli 7B-70B fine-tuned superano modelli 10x più grandi su metriche specifiche, a frazione del costo.

”Gli LLM ricordano le conversazioni precedenti”

No. Ogni chiamata API è stateless. La “memoria” è simulata includendo lo storico nel prompt, consumando context window.

Termini correlati

Transformer: architettura alla base degli LLM
Fine-tuning: adattamento di un LLM a task specifici
RAG: pattern per integrare knowledge esterna negli LLM
Prompt Engineering: ottimizzazione degli input agli LLM
Hallucination: output confidenti ma errati

Fonti

Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv
Wei, J. et al. (2022). Emergent Abilities of Large Language Models. TMLR
Artificial Analysis: benchmark indipendente di LLM