Definizione
Llama è una famiglia di modelli linguistici open-weights (pesi pubblici) sviluppati da Meta, introdotta nel febbraio 2023 come contribution ai modelli di frontier pubblici. A differenza di GPT-4 o Claude (accesso esclusivamente via API), Llama pubblica i pesi del modello, permettendo a ricercatori e sviluppatori di fine-tuning, deployment locale, e research senza restrizioni API.
Il rilascio di Llama ha democratizzato significativamente l’accesso ai modelli di frontier, catalizzando un ecosistema di derivati e applicazioni open-source.
Timeline e Versioni
Llama 1 (febbraio 2023): serie di modelli 7B-65B parametri. Performance comparabile a GPT-3 e GPT-3.5. Rilascio “accidentale” ampliato tramite leak, ma ufficializzato da Meta.
Llama 2 (luglio 2023): versioni 7B, 13B, 70B. Miglioramenti su coding, conversazione. Licenza ufficiale Meta Llama Community License. Fine-tuned chat variants (Llama 2-Chat) competitive con GPT-3.5.
Llama 3 (aprile 2024): versioni 8B, 70B, 405B. Performance frontier su 8B e 70B (competitivo con GPT-4 su molti benchmark). Context window esteso a 8K token. Addestramento su ~15 trilioni di token (vs. 2T+ per GPT-4).
Llama 3.1 e 3.2 (2024): iterazioni per miglioramenti su specifici task, vision capabilities, multilingual support.
Caratteristiche tecniche
Architettura: Transformer decoder-only standard, simile a GPT. Usa:
- Grouped-query attention per efficienza inference
- RoPE (Rotary Position Embeddings) per position encoding
- SwiGLU activation function
Training data: mix di web data, codice, conversazioni sintetiche. ~15T token per Llama 3 (quantità record, 7-8x più di GPT-4).
Context window: 8K token (Llama 3), sufficiente per la maggior parte dei task. Vs. GPT-4 Turbo che ha 128K.
Inference efficiency: Llama 7B ha ~2x parametri in meno di GPT-3.5 ma performance comparabile, rendendola efficiente per deployment.
Deployment e Customizzazione
Open-weights = flexibility totale:
- Deployment locale (on-premise, private cloud) senza logging cloud
- Fine-tuning custom su dati proprietari (privacy garantita)
- Quantizzazione per ridurre memoria (int8, int4)
- Distillazione per modelli più piccoli
Ecosystem:
- ollama: uno-click deployment locale
- vLLM: inference server performante
- LM Studio: GUI per fine-tuning e deployment
- Hugging Face: versioni quantizzate (GGUF, AWQ, GPTQ) per multiple hardware
Cost: training Llama 2 70B su H100 GPU costa ~$5M. Fine-tuning custom: ore di GPU (da $10-100 a scala). Inference local: zero marginal cost (solo electricity).
Casi d’uso
Fine-tuning per domain specifici: medicina, legale, finanza. Llama base fine-tuned su dati specializzati spesso supera GPT-4 su task in-domain.
Deployment edge: modelli 7B-13B quantizzati rulano su consumer GPU (RTX 3090) o TPU edge. Uso per mobile, offline, privacy-critical.
Cost optimization: per volumi elevati, Llama auto-hosted costa 100x meno di GPT-4 API. Break-even point: ~10M token/mese.
Research e experimentation: pesi pubblici permettono ricerca su interpretabilità, alignment, safety senza restrizioni proprietarie.
Considerazioni pratiche
Licensing e Commercial Use: Llama Community License ha restrizioni (entità con oltre 700M annual revenue necessitano autorizzazione). Verificare attentamente per uso commerciale.
Quality vs. Frontier: Llama 3 70B è competitive con GPT-4 su MMLU (~85% vs. ~92%), HumanEval (~83% vs. ~92%), ma gap rimane su reasoning complexo. Trade-off: cost/latency vs. quality.
Fine-tuning quality: con LoRA o QLoRA, fine-tuning Llama 3 70B costa ~$10-50 su consumer hardware. Quality gains di 5-15% accuracy su task in-domain, spesso enough per production.
Community support: comunità Llama è massiva (100K+ practitioner). Risorse di fine-tuning, guide, e issues resolution sono abbondanti.
Fraintendimenti comuni
”Llama è completamente open-source”
Parziale. Pesi sono public, ma licenza Meta Llama Community License ha restrizioni commerciali. Non è GNU GPL o MIT. Uso enterprise può richiedere negoziazione.
”Llama è sempre la scelta corretta per cost savings”
No. Llama 7B auto-hosted costa compute ma ha quality inferiore a GPT-3.5. Per bassa latency o high reliability, closed-source rimane preferibile.
”Llama è ready-to-deploy su ogni task”
Base Llama ha performance generale decente, ma è generico. Fine-tuning su dati task-specific è quasi sempre richiesto per production-grade performance.
Termini correlati
- LLM: categoria di cui Llama è membro
- Foundation Model: paradigma di cui Llama è istanza
- Fine-tuning: pratica comune con Llama
Fonti
- Touvron, H. et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288
- Meta AI (2024). The Llama 3 Herd of Models. arXiv:2407.21783
- Llama on Hugging Face Hub