AI Techniques DefinedTerm

Reinforcement Learning from Human Feedback (RLHF)

Conosciuto anche come: RLHF, RL from Human Feedback

Tecnica di allineamento che usa feedback umano per addestrare LLM a produrre output utili, sicuri e conformi alle intenzioni degli utenti.

Updated: 2026-01-03

Definizione

RLHF (Reinforcement Learning from Human Feedback) è una tecnica di allineamento che usa preferenze umane per addestrare LLM a produrre output più utili, accurati e sicuri. È il processo che trasforma un modello base (che completa testo in modo statistico) in un assistente che risponde in modo utile.

RLHF è stato reso popolare da ChatGPT ed è usato, con varianti, dalla maggior parte dei modelli frontier.

Come funziona

Il processo tipico prevede tre fasi:

1. Supervised Fine-Tuning (SFT): il modello base viene fine-tuned su un dataset di dimostrazioni (prompt → risposta ideale) creato da annotatori umani.

2. Reward Model Training: annotatori umani confrontano coppie di risposte e indicano quale preferiscono. Questi dati di preferenza addestrano un “reward model” che impara a predire quale output un umano preferirebbe.

3. RL Optimization: il modello viene ottimizzato con reinforcement learning (tipicamente PPO) per massimizzare lo score del reward model, con un termine di regolarizzazione (KL penalty) per non divergere troppo dal modello originale.

Perché serve

Un LLM pre-trained è addestrato a predire il prossimo token, non a essere utile. Può generare output tossici, rifiutarsi di rispondere a domande innocue, o ignorare le istruzioni dell’utente.

RLHF “allinea” il modello a comportamenti desiderati: seguire istruzioni, essere utile, rifiutare richieste dannose, ammettere incertezza.

Alternative e sviluppi

DPO (Direct Preference Optimization): ottimizza direttamente sulle preferenze senza addestrare un reward model separato. Più semplice e stabile, sta diventando popolare.

RLAIF: usa un altro LLM invece di annotatori umani per generare feedback. Scala meglio ma introduce bias del modello giudice.

Constitutional AI (Anthropic): il modello critica e rivede i propri output secondo principi definiti, riducendo la dipendenza da feedback umano diretto.

Considerazioni pratiche

Costi di annotazione: RLHF richiede migliaia di confronti umani. Costoso e lento da scalare.

Reward hacking: il modello può imparare a “giocare” il reward model, producendo output che scorano alto ma non sono realmente migliori.

Distributional shift: le preferenze degli annotatori possono non rappresentare tutti gli utenti. Bias nei dati di preferenza si trasferiscono al modello.

Fraintendimenti comuni

”RLHF rende il modello più intelligente”

No. RLHF modifica il comportamento, non la conoscenza. Il modello diventa più utile e allineato, non più capace di reasoning o più accurato sui fatti.

”RLHF risolve la sicurezza”

Riduce comportamenti indesiderati ma non li elimina. Jailbreak e prompt injection possono aggirare le protezioni.

”RLHF è stato inventato per ChatGPT”

No. La tecnica esisteva prima (DeepMind per Atari, OpenAI per summarization). ChatGPT l’ha resa famosa applicandola su larga scala.

Termini correlati

  • LLM: modelli a cui si applica RLHF
  • Fine-tuning: fase precedente di RLHF

Fonti

Articoli Correlati

Articoli che trattano Reinforcement Learning from Human Feedback (RLHF) come argomento principale o secondario.