Foundation Model

Definizione

Un foundation model è un modello di deep learning pre-addestrato su enormi quantità di dati non etichettati (web-scale) che può essere adattato a una vasta gamma di task downstream specifici. Il termine, coniato dal Stanford HAI Institute nel 2021, riflette il paradigma di transfer learning moderno dove il pre-training rappresenta la fase computazionalmente più costosa.

I foundation model si distinguono dai modelli tradizionali per:

Scala massiva: miliardi di parametri e dati di training su centinaia di miliardi di token
Multimodal potential: il medesimo modello (es. GPT-4) può processare testo, immagini, audio
Versatilità: adattabili a task molto diversi senza architecture changes
Emergent abilities: capacità che appaiono solo a certi scale (zero-shot learning, chain-of-thought reasoning)

Caratteristiche principali

Pre-training su dati generici: il modello viene addestrato su dataset broad (Common Crawl, Wikipedia, libri, codice) senza etichette, con objective come predizione del token successivo o masked language modeling.

Transfer learning: il modello pre-addestrato cattura patterns linguistici/visivi generici che transferiscono a task downstream.

Task flexibility: il medesimo modello può essere fine-tuned, prompt-engineered, o usato in-context per classification, generation, reasoning, e altro senza modification architetturale.

Cost asymmetry: il pre-training è costoso (milioni di dollari in compute) ma amortizzato su milioni di task. L’adattamento downstream è relativamente economico.

Paradigmi di adattamento

Fine-tuning: aggiornamento dei parametri del modello su dati task-specific. Full fine-tuning modifica tutti i parametri (costoso). Parameter-efficient fine-tuning (LoRA, QLoRA, prefix tuning) modifica meno dell’1% dei parametri.

Prompt Engineering: formulazione attenta del prompt per estrarre capacità dal modello senza aggiornare parametri. Zero-shot, few-shot, e chain-of-thought sono tecniche di prompt engineering.

In-Context Learning: il modello impara da esempi nel prompt (few-shot) senza aggiornamento. Proprietà emergente a scale elevate.

Retrieval-Augmented Adaptation: il modello accede a knowledge base esterna tramite retrieval per augmentare risposte. Ibrido tra fine-tuning statico e adattamento dinamico.

Modelli foundation principali (2025)

Testo (LLM):

Closed-source: GPT-4/4o, Claude 3.5, Gemini 1.5
Open-weights: Llama 3, Mistral, Qwen, Phi, DeepSeek

Vision:

Closed-source: GPT-4o, Claude 3.5, Gemini 1.5
Open-weights: Vision Transformer (ViT), LLaVA, Qwen-VL

Multimodal:

Closed-source: GPT-4o, Claude 3.5, Gemini 1.5
Open-weights: LLaVA, CogVLM

Code:

Specialized models: CodeLlama, Copilot, Claude 3.5

Considerazioni pratiche

Selezione del modello: dipende da task, latency requirements, cost budget, privacy constraints. Un modello frontier costa 10-100x più di un modello open-source equivalente.

Licensing: modelli open-weights hanno licenze variabili. Llama ha restrizioni commerciali su entità oltre certi threshold di capital. Considerate attentamente per deployment commerciale.

Continual learning: i foundation model non apprendono da interazioni post-deployment senza retraining. Per scenari che evolevono, RAG o fine-tuning periodico è necessario.

Bias mitigation: il modello eredita i bias del training data (es. gender bias nei dataset web-scale). Mitigation tramite RLHF, fine-tuning su dati balanced, o prompt engineering, ma non elimina il problema completamente.

Fraintendimenti comuni

”Un foundation model risolve tutto”

No. Un modello generico può performare male su domini molto specializzati (medicina, legale) dove fine-tuning su dati in-domain è critico.

”Una volta pre-trained, costa niente adattare”

Il fine-tuning ha costi computazionali non-negligibili (GPU, storage). Per inference, ogni richiesta ha costo in compute. A scala, il TCO dell’adattamento diventa rilevante.

”Il foundation model più grande è sempre meglio”

Dipende. Per molti task, modelli 7B-13B fine-tuned superano modelli 100B+ su metriche specifiche, con latenza e costo significativamente inferiori.

Termini correlati

LLM: categoria di foundation model per linguaggio naturale
Fine-tuning: tecnica di adattamento di foundation model
Prompt Engineering: arte di formulare prompt per estrarre capacità da foundation model
Transformer: architettura sottostante ai foundation model moderni
Transfer Learning: paradigma generale di cui i foundation model sono istanza

Fonti

Bommasani, R. et al. (2021). On the Opportunities and Risks of Foundation Models. arXiv (comprehensive survey)
Dosovitskiy, A. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR
Lester, B. et al. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. EMNLP
Stanford Foundation Model Hub: tracking e evaluating foundation models