Definizione
Red Teaming è processo strutturato dove team autorizzati (il “red team”) tentano sistematicamente di compromettere, eludere, o trovare debolezze in un sistema AI, senza accesso al codice sorgente ma con libertà di input. L’obiettivo è identificare vulnerabilità e miglioramenti prima che avversari malintenzionati li sfruttino.
Nel contesto di generative AI come LLM, red teaming significa cercare prompt, sequenze di query, o comportamenti che causano il modello a produrre output unsafe: jailbreaks, misinformation, bias, harmful content.
Tipi di Red Teaming
Jailbreak Attempts: formulare prompt che causano modello a violare le safety guidelines. Esempio: “Ignore previous instructions” o elaborate social engineering per far il modello rivelage dangerous information.
Bias and Fairness Attacks: formulare query che espongono bias nel modello. Esempio: chiedere al modello di descrivere diverse professioni notando se fa stereotipi gender/razziali.
Hallucination Triggers: cercare input che causano il modello a hallucinate informazioni false con confidenza. Particolarmente importante per modelli che supportano decizioni critiche.
Out-of-Distribution Attacks: input altamente anomali, linguaggi rari, testi esotici. Come si comporta il modello quando non ha mai visto input simile?
Contradiction Attacks: formulare prompt con contradizioni logiche o requisiti impossibili. È il modello honest su limitazioni o hallucina una risposta plausibile?
Multi-Step Attacks: sequenze di domande che progressivamente eludono safety measures. Attacker non chiede direttamente cosa vuole; lo estrae gradualmente.
Metodologie di Red Teaming
Automated Red Teaming: usare generative model (e.g., GPT-4) per generare autonomously prompt di attack. Più scalabile ma meno creativo.
Human Red Teaming: persone creative con domain expertise tentano di rompere il sistema. Più creativo, scopre attack types non anticipati, ma costoso.
Hybrid Approach: combina automated generation (per scale) con human review (per validazione e creativity). Spesso il migliore.
Interactive Red Teaming: red teamer iterativamente raffina attacchi basato su risposte del modello. Approccio conversational che scopre vulnerabilità nuove.
Ruoli in Red Teaming
Red Team Lead: coordina sforzi, allocate risorse, prioritizza findings
Adversarial Prompt Specialist: creativo prompt engineer che formulare sophisticated attacks
Domain Expert: expertise specifico (e.g., medical, legal, security) che sa cosa failure modes sarebbero pericolosi
Victim Model Expert: capisce architettura e limitazioni del modello being tested
Analyst: aggrega findings, categorizza, produce report
Output di Red Teaming
Vulnerability Report: documentato elenco di vulnerabilità scoperte con severity rating
Reproducible Cases: specific prompt/input combos che reliably causano problema
Mitigation Recommendations: suggerimenti per ridurre vulnerabilità (e.g., improved prompting, architectural changes, additional training)
Metrics: numero e tipo di vulnerabilità per categoria
Executive Summary: comunicazione ad high-level stakeholder su risk posture
Sfide di Red Teaming
Scope Creep: quante attack types considerare? Quante permutazioni? Red teaming può durare indefinitamente.
Subjectivity: cosa costituisce “unsafe” varia culturalmente. Un team percepisce output come problematico, altro non.
Resource Intensity: red teaming buono richiede persone creative e skilled. Costoso.
False Negatives: non trovando vulnerabilità non significa non ci sono. Mancano attacker creativo abbastanza.
Adversary Arms Race: una volta mitigati exploit conosciuti, attacker migliori inventano nuovi. Red teaming è continuativo, non one-time.
Best Practices
- Coinvolgere persone diverse (backgrounds, expertise, perspettive diverse trovano problemi diversi)
- Documentare meticolosamente finding e reproduction steps
- Priorizzare vulnerability per severity e likelihood
- Iterare: prima round, second round, continuo monitoring
- Rendere psych-safe: red teamer non dovrebbe punito per trovare problemi
- Mitigare proattivamente le vulnerabilità scoperte
- Comunicare trasparentemente su limitazioni
Termini correlati
- AI Testing and Evaluation: testing framework per red teaming
- Quality Assurance AI: parte di QA robustness
- Model Behavior Evaluation: valutazione di edge case
- AI Governance: governance di red teaming
Fonti
- “Red Teaming Language Models to Reduce Harms” - Perez et al.
- Anthropic: Constitutional AI and red teaming approach
- Center for AI Safety: Red teaming resources