AI Concepts DefinedTerm

Foundation Model

Conosciuto anche come: Base Model, Foundation Models, FM

Modello di AI pre-addestrato su dati su larga scala che serve come base per adattarsi a molteplici task downstream tramite fine-tuning o prompt-based learning.

Updated: 2026-01-04

Definizione

Un foundation model è un modello di deep learning pre-addestrato su enormi quantità di dati non etichettati (web-scale) che può essere adattato a una vasta gamma di task downstream specifici. Il termine, coniato dal Stanford HAI Institute nel 2021, riflette il paradigma di transfer learning moderno dove il pre-training rappresenta la fase computazionalmente più costosa.

I foundation model si distinguono dai modelli tradizionali per:

  • Scala massiva: miliardi di parametri e dati di training su centinaia di miliardi di token
  • Multimodal potential: il medesimo modello (es. GPT-4) può processare testo, immagini, audio
  • Versatilità: adattabili a task molto diversi senza architecture changes
  • Emergent abilities: capacità che appaiono solo a certi scale (zero-shot learning, chain-of-thought reasoning)

Caratteristiche principali

Pre-training su dati generici: il modello viene addestrato su dataset broad (Common Crawl, Wikipedia, libri, codice) senza etichette, con objective come predizione del token successivo o masked language modeling.

Transfer learning: il modello pre-addestrato cattura patterns linguistici/visivi generici che transferiscono a task downstream.

Task flexibility: il medesimo modello può essere fine-tuned, prompt-engineered, o usato in-context per classification, generation, reasoning, e altro senza modification architetturale.

Cost asymmetry: il pre-training è costoso (milioni di dollari in compute) ma amortizzato su milioni di task. L’adattamento downstream è relativamente economico.

Paradigmi di adattamento

Fine-tuning: aggiornamento dei parametri del modello su dati task-specific. Full fine-tuning modifica tutti i parametri (costoso). Parameter-efficient fine-tuning (LoRA, QLoRA, prefix tuning) modifica meno dell’1% dei parametri.

Prompt Engineering: formulazione attenta del prompt per estrarre capacità dal modello senza aggiornare parametri. Zero-shot, few-shot, e chain-of-thought sono tecniche di prompt engineering.

In-Context Learning: il modello impara da esempi nel prompt (few-shot) senza aggiornamento. Proprietà emergente a scale elevate.

Retrieval-Augmented Adaptation: il modello accede a knowledge base esterna tramite retrieval per augmentare risposte. Ibrido tra fine-tuning statico e adattamento dinamico.

Modelli foundation principali (2025)

Testo (LLM):

  • Closed-source: GPT-4/4o, Claude 3.5, Gemini 1.5
  • Open-weights: Llama 3, Mistral, Qwen, Phi, DeepSeek

Vision:

  • Closed-source: GPT-4o, Claude 3.5, Gemini 1.5
  • Open-weights: Vision Transformer (ViT), LLaVA, Qwen-VL

Multimodal:

  • Closed-source: GPT-4o, Claude 3.5, Gemini 1.5
  • Open-weights: LLaVA, CogVLM

Code:

  • Specialized models: CodeLlama, Copilot, Claude 3.5

Considerazioni pratiche

Selezione del modello: dipende da task, latency requirements, cost budget, privacy constraints. Un modello frontier costa 10-100x più di un modello open-source equivalente.

Licensing: modelli open-weights hanno licenze variabili. Llama ha restrizioni commerciali su entità oltre certi threshold di capital. Considerate attentamente per deployment commerciale.

Continual learning: i foundation model non apprendono da interazioni post-deployment senza retraining. Per scenari che evolevono, RAG o fine-tuning periodico è necessario.

Bias mitigation: il modello eredita i bias del training data (es. gender bias nei dataset web-scale). Mitigation tramite RLHF, fine-tuning su dati balanced, o prompt engineering, ma non elimina il problema completamente.

Fraintendimenti comuni

”Un foundation model risolve tutto”

No. Un modello generico può performare male su domini molto specializzati (medicina, legale) dove fine-tuning su dati in-domain è critico.

”Una volta pre-trained, costa niente adattare”

Il fine-tuning ha costi computazionali non-negligibili (GPU, storage). Per inference, ogni richiesta ha costo in compute. A scala, il TCO dell’adattamento diventa rilevante.

”Il foundation model più grande è sempre meglio”

Dipende. Per molti task, modelli 7B-13B fine-tuned superano modelli 100B+ su metriche specifiche, con latenza e costo significativamente inferiori.

Termini correlati

  • LLM: categoria di foundation model per linguaggio naturale
  • Fine-tuning: tecnica di adattamento di foundation model
  • Prompt Engineering: arte di formulare prompt per estrarre capacità da foundation model
  • Transformer: architettura sottostante ai foundation model moderni
  • Transfer Learning: paradigma generale di cui i foundation model sono istanza

Fonti

Articoli Correlati

Articoli che trattano Foundation Model come argomento principale o secondario.