Definizione
Un foundation model è un modello di deep learning pre-addestrato su enormi quantità di dati non etichettati (web-scale) che può essere adattato a una vasta gamma di task downstream specifici. Il termine, coniato dal Stanford HAI Institute nel 2021, riflette il paradigma di transfer learning moderno dove il pre-training rappresenta la fase computazionalmente più costosa.
I foundation model si distinguono dai modelli tradizionali per:
- Scala massiva: miliardi di parametri e dati di training su centinaia di miliardi di token
- Multimodal potential: il medesimo modello (es. GPT-4) può processare testo, immagini, audio
- Versatilità: adattabili a task molto diversi senza architecture changes
- Emergent abilities: capacità che appaiono solo a certi scale (zero-shot learning, chain-of-thought reasoning)
Caratteristiche principali
Pre-training su dati generici: il modello viene addestrato su dataset broad (Common Crawl, Wikipedia, libri, codice) senza etichette, con objective come predizione del token successivo o masked language modeling.
Transfer learning: il modello pre-addestrato cattura patterns linguistici/visivi generici che transferiscono a task downstream.
Task flexibility: il medesimo modello può essere fine-tuned, prompt-engineered, o usato in-context per classification, generation, reasoning, e altro senza modification architetturale.
Cost asymmetry: il pre-training è costoso (milioni di dollari in compute) ma amortizzato su milioni di task. L’adattamento downstream è relativamente economico.
Paradigmi di adattamento
Fine-tuning: aggiornamento dei parametri del modello su dati task-specific. Full fine-tuning modifica tutti i parametri (costoso). Parameter-efficient fine-tuning (LoRA, QLoRA, prefix tuning) modifica meno dell’1% dei parametri.
Prompt Engineering: formulazione attenta del prompt per estrarre capacità dal modello senza aggiornare parametri. Zero-shot, few-shot, e chain-of-thought sono tecniche di prompt engineering.
In-Context Learning: il modello impara da esempi nel prompt (few-shot) senza aggiornamento. Proprietà emergente a scale elevate.
Retrieval-Augmented Adaptation: il modello accede a knowledge base esterna tramite retrieval per augmentare risposte. Ibrido tra fine-tuning statico e adattamento dinamico.
Modelli foundation principali (2025)
Testo (LLM):
- Closed-source: GPT-4/4o, Claude 3.5, Gemini 1.5
- Open-weights: Llama 3, Mistral, Qwen, Phi, DeepSeek
Vision:
- Closed-source: GPT-4o, Claude 3.5, Gemini 1.5
- Open-weights: Vision Transformer (ViT), LLaVA, Qwen-VL
Multimodal:
- Closed-source: GPT-4o, Claude 3.5, Gemini 1.5
- Open-weights: LLaVA, CogVLM
Code:
- Specialized models: CodeLlama, Copilot, Claude 3.5
Considerazioni pratiche
Selezione del modello: dipende da task, latency requirements, cost budget, privacy constraints. Un modello frontier costa 10-100x più di un modello open-source equivalente.
Licensing: modelli open-weights hanno licenze variabili. Llama ha restrizioni commerciali su entità oltre certi threshold di capital. Considerate attentamente per deployment commerciale.
Continual learning: i foundation model non apprendono da interazioni post-deployment senza retraining. Per scenari che evolevono, RAG o fine-tuning periodico è necessario.
Bias mitigation: il modello eredita i bias del training data (es. gender bias nei dataset web-scale). Mitigation tramite RLHF, fine-tuning su dati balanced, o prompt engineering, ma non elimina il problema completamente.
Fraintendimenti comuni
”Un foundation model risolve tutto”
No. Un modello generico può performare male su domini molto specializzati (medicina, legale) dove fine-tuning su dati in-domain è critico.
”Una volta pre-trained, costa niente adattare”
Il fine-tuning ha costi computazionali non-negligibili (GPU, storage). Per inference, ogni richiesta ha costo in compute. A scala, il TCO dell’adattamento diventa rilevante.
”Il foundation model più grande è sempre meglio”
Dipende. Per molti task, modelli 7B-13B fine-tuned superano modelli 100B+ su metriche specifiche, con latenza e costo significativamente inferiori.
Termini correlati
- LLM: categoria di foundation model per linguaggio naturale
- Fine-tuning: tecnica di adattamento di foundation model
- Prompt Engineering: arte di formulare prompt per estrarre capacità da foundation model
- Transformer: architettura sottostante ai foundation model moderni
- Transfer Learning: paradigma generale di cui i foundation model sono istanza
Fonti
- Bommasani, R. et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv (comprehensive survey)
- Dosovitskiy, A. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR
- Lester, B. et al. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. EMNLP
- Stanford Foundation Model Hub: tracking e evaluating foundation models