Llama (Large Language Model)

Definizione

Llama è una famiglia di modelli linguistici open-weights (pesi pubblici) sviluppati da Meta, introdotta nel febbraio 2023 come contribution ai modelli di frontier pubblici. A differenza di GPT-4 o Claude (accesso esclusivamente via API), Llama pubblica i pesi del modello, permettendo a ricercatori e sviluppatori di fine-tuning, deployment locale, e research senza restrizioni API.

Il rilascio di Llama ha democratizzato significativamente l’accesso ai modelli di frontier, catalizzando un ecosistema di derivati e applicazioni open-source.

Timeline e Versioni

Llama 1 (febbraio 2023): serie di modelli 7B-65B parametri. Performance comparabile a GPT-3 e GPT-3.5. Rilascio “accidentale” ampliato tramite leak, ma ufficializzato da Meta.

Llama 2 (luglio 2023): versioni 7B, 13B, 70B. Miglioramenti su coding, conversazione. Licenza ufficiale Meta Llama Community License. Fine-tuned chat variants (Llama 2-Chat) competitive con GPT-3.5.

Llama 3 (aprile 2024): versioni 8B, 70B, 405B. Performance frontier su 8B e 70B (competitivo con GPT-4 su molti benchmark). Context window esteso a 8K token. Addestramento su ~15 trilioni di token (vs. 2T+ per GPT-4).

Llama 3.1 e 3.2 (2024): iterazioni per miglioramenti su specifici task, vision capabilities, multilingual support.

Caratteristiche tecniche

Architettura: Transformer decoder-only standard, simile a GPT. Usa:

Grouped-query attention per efficienza inference
RoPE (Rotary Position Embeddings) per position encoding
SwiGLU activation function

Training data: mix di web data, codice, conversazioni sintetiche. ~15T token per Llama 3 (quantità record, 7-8x più di GPT-4).

Context window: 8K token (Llama 3), sufficiente per la maggior parte dei task. Vs. GPT-4 Turbo che ha 128K.

Inference efficiency: Llama 7B ha ~2x parametri in meno di GPT-3.5 ma performance comparabile, rendendola efficiente per deployment.

Deployment e Customizzazione

Open-weights = flexibility totale:

Deployment locale (on-premise, private cloud) senza logging cloud
Fine-tuning custom su dati proprietari (privacy garantita)
Quantizzazione per ridurre memoria (int8, int4)
Distillazione per modelli più piccoli

Ecosystem:

ollama: uno-click deployment locale
vLLM: inference server performante
LM Studio: GUI per fine-tuning e deployment
Hugging Face: versioni quantizzate (GGUF, AWQ, GPTQ) per multiple hardware

Cost: training Llama 2 70B su H100 GPU costa ~$5M. Fine-tuning custom: ore di GPU (da $10-100 a scala). Inference local: zero marginal cost (solo electricity).

Casi d’uso

Fine-tuning per domain specifici: medicina, legale, finanza. Llama base fine-tuned su dati specializzati spesso supera GPT-4 su task in-domain.

Deployment edge: modelli 7B-13B quantizzati rulano su consumer GPU (RTX 3090) o TPU edge. Uso per mobile, offline, privacy-critical.

Cost optimization: per volumi elevati, Llama auto-hosted costa 100x meno di GPT-4 API. Break-even point: ~10M token/mese.

Research e experimentation: pesi pubblici permettono ricerca su interpretabilità, alignment, safety senza restrizioni proprietarie.

Considerazioni pratiche

Licensing e Commercial Use: Llama Community License ha restrizioni (entità con oltre 700M annual revenue necessitano autorizzazione). Verificare attentamente per uso commerciale.

Quality vs. Frontier: Llama 3 70B è competitive con GPT-4 su MMLU (~85% vs. ~92%), HumanEval (~83% vs. ~92%), ma gap rimane su reasoning complexo. Trade-off: cost/latency vs. quality.

Fine-tuning quality: con LoRA o QLoRA, fine-tuning Llama 3 70B costa ~$10-50 su consumer hardware. Quality gains di 5-15% accuracy su task in-domain, spesso enough per production.

Community support: comunità Llama è massiva (100K+ practitioner). Risorse di fine-tuning, guide, e issues resolution sono abbondanti.

Fraintendimenti comuni

”Llama è completamente open-source”

Parziale. Pesi sono public, ma licenza Meta Llama Community License ha restrizioni commerciali. Non è GNU GPL o MIT. Uso enterprise può richiedere negoziazione.

”Llama è sempre la scelta corretta per cost savings”

No. Llama 7B auto-hosted costa compute ma ha quality inferiore a GPT-3.5. Per bassa latency o high reliability, closed-source rimane preferibile.

”Llama è ready-to-deploy su ogni task”

Base Llama ha performance generale decente, ma è generico. Fine-tuning su dati task-specific è quasi sempre richiesto per production-grade performance.

Termini correlati

LLM: categoria di cui Llama è membro
Foundation Model: paradigma di cui Llama è istanza
Fine-tuning: pratica comune con Llama

Fonti

Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971
Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288
Meta AI (2024). The Llama 3 Herd of Models. arXiv:2407.21783
Llama on Hugging Face Hub