Transformer

Definizione

Il Transformer è un’architettura di rete neurale introdotta nel 2017 da Vaswani et al. (Google) nel paper “Attention Is All You Need”. A differenza delle architetture ricorrenti (RNN, LSTM), processa l’intera sequenza in parallelo usando meccanismi di self-attention.

È l’architettura alla base di tutti i moderni LLM (GPT, Claude, Llama), modelli di embedding, e molti modelli di computer vision (Vision Transformer).

Componenti chiave

Self-Attention: meccanismo che permette a ogni posizione della sequenza di “attendere” a tutte le altre posizioni, pesando l’importanza relativa. Cattura dipendenze a lungo raggio che RNN faticavano a modellare.

Multi-Head Attention: multiple “teste” di attention in parallelo, ognuna che apprende pattern diversi. Tipicamente 8-96 teste per layer.

Feed-Forward Networks: layer fully-connected applicati indipendentemente a ogni posizione dopo l’attention.

Positional Encoding: segnale aggiunto agli embedding per codificare la posizione nella sequenza (l’attention di per sé è permutation-invariant).

Layer Normalization e Residual Connections: tecniche di stabilizzazione che permettono di addestrare reti molto profonde.

Varianti architetturali

Encoder-only (BERT): processa l’intera sequenza bidirezionalmente. Usato per classificazione, NER, embedding.

Decoder-only (GPT, Llama, Claude): autoregressive, genera token uno alla volta condizionando sui precedenti. Domina la generazione di testo.

Encoder-Decoder (T5, BART, il Transformer originale): encoder processa l’input, decoder genera l’output. Usato per traduzione, summarization.

Complessità computazionale

L’attention ha complessità O(n²) rispetto alla lunghezza della sequenza n. Per context window di 100K+ token, questo diventa proibitivo.

Varianti efficienti (Flash Attention, Sparse Attention, Linear Attention) riducono la complessità a O(n) o O(n log n), abilitando context window più lunghi senza esplosione di costi.

Perché ha dominato

Parallelizzazione: a differenza delle RNN, tutti i token vengono processati in parallelo durante il training. Questo sfrutta meglio le GPU moderne.

Scaling: le performance migliorano prevedibilmente con più parametri, più dati, più compute (scaling laws).

Transfer learning: modelli pre-trained su dati web-scale trasferiscono capacità a task downstream con poco fine-tuning.

Fraintendimenti comuni

”Attention = comprensione”

L’attention è un meccanismo di pesatura statistica, non comprensione semantica. I pattern di attention possono essere visualizzati ma non sempre corrispondono a interpretazioni umane intuitive.

”I Transformer sono solo per NLP”

L’architettura si è estesa a vision (ViT), audio (Whisper), proteine (AlphaFold 2), reinforcement learning, e domini multimodali.

”Più layer = sempre meglio”

Oltre certe profondità, i guadagni sono marginali e i costi di training/inference crescono. L’ottimizzazione è su width (dimensione hidden), heads, e training data, non solo depth.

Termini correlati

Attention Mechanism: componente core del Transformer
LLM: applicazione principale dell’architettura Transformer
Embeddings: rappresentazioni vettoriali processate dal Transformer
Tokenization: pre-processing dell’input per Transformer

Fonti

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS
Dosovitskiy, A. et al. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR
The Illustrated Transformer - Jay Alammar