Definizione
Il Transformer è un’architettura di rete neurale introdotta nel 2017 da Vaswani et al. (Google) nel paper “Attention Is All You Need”. A differenza delle architetture ricorrenti (RNN, LSTM), processa l’intera sequenza in parallelo usando meccanismi di self-attention.
È l’architettura alla base di tutti i moderni LLM (GPT, Claude, Llama), modelli di embedding, e molti modelli di computer vision (Vision Transformer).
Componenti chiave
Self-Attention: meccanismo che permette a ogni posizione della sequenza di “attendere” a tutte le altre posizioni, pesando l’importanza relativa. Cattura dipendenze a lungo raggio che RNN faticavano a modellare.
Multi-Head Attention: multiple “teste” di attention in parallelo, ognuna che apprende pattern diversi. Tipicamente 8-96 teste per layer.
Feed-Forward Networks: layer fully-connected applicati indipendentemente a ogni posizione dopo l’attention.
Positional Encoding: segnale aggiunto agli embedding per codificare la posizione nella sequenza (l’attention di per sé è permutation-invariant).
Layer Normalization e Residual Connections: tecniche di stabilizzazione che permettono di addestrare reti molto profonde.
Varianti architetturali
Encoder-only (BERT): processa l’intera sequenza bidirezionalmente. Usato per classificazione, NER, embedding.
Decoder-only (GPT, Llama, Claude): autoregressive, genera token uno alla volta condizionando sui precedenti. Domina la generazione di testo.
Encoder-Decoder (T5, BART, il Transformer originale): encoder processa l’input, decoder genera l’output. Usato per traduzione, summarization.
Complessità computazionale
L’attention ha complessità O(n²) rispetto alla lunghezza della sequenza n. Per context window di 100K+ token, questo diventa proibitivo.
Varianti efficienti (Flash Attention, Sparse Attention, Linear Attention) riducono la complessità a O(n) o O(n log n), abilitando context window più lunghi senza esplosione di costi.
Perché ha dominato
Parallelizzazione: a differenza delle RNN, tutti i token vengono processati in parallelo durante il training. Questo sfrutta meglio le GPU moderne.
Scaling: le performance migliorano prevedibilmente con più parametri, più dati, più compute (scaling laws).
Transfer learning: modelli pre-trained su dati web-scale trasferiscono capacità a task downstream con poco fine-tuning.
Fraintendimenti comuni
”Attention = comprensione”
L’attention è un meccanismo di pesatura statistica, non comprensione semantica. I pattern di attention possono essere visualizzati ma non sempre corrispondono a interpretazioni umane intuitive.
”I Transformer sono solo per NLP”
L’architettura si è estesa a vision (ViT), audio (Whisper), proteine (AlphaFold 2), reinforcement learning, e domini multimodali.
”Più layer = sempre meglio”
Oltre certe profondità, i guadagni sono marginali e i costi di training/inference crescono. L’ottimizzazione è su width (dimensione hidden), heads, e training data, non solo depth.
Termini correlati
- Attention Mechanism: componente core del Transformer
- LLM: applicazione principale dell’architettura Transformer
- Embeddings: rappresentazioni vettoriali processate dal Transformer
- Tokenization: pre-processing dell’input per Transformer
Fonti
- Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS
- Dosovitskiy, A. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR
- The Illustrated Transformer - Jay Alammar