Red Teaming

Definizione

Red Teaming è processo strutturato dove team autorizzati (il “red team”) tentano sistematicamente di compromettere, eludere, o trovare debolezze in un sistema AI, senza accesso al codice sorgente ma con libertà di input. L’obiettivo è identificare vulnerabilità e miglioramenti prima che avversari malintenzionati li sfruttino.

Nel contesto di generative AI come LLM, red teaming significa cercare prompt, sequenze di query, o comportamenti che causano il modello a produrre output unsafe: jailbreaks, misinformation, bias, harmful content.

Tipi di Red Teaming

Jailbreak Attempts: formulare prompt che causano modello a violare le safety guidelines. Esempio: “Ignore previous instructions” o elaborate social engineering per far il modello rivelage dangerous information.

Bias and Fairness Attacks: formulare query che espongono bias nel modello. Esempio: chiedere al modello di descrivere diverse professioni notando se fa stereotipi gender/razziali.

Hallucination Triggers: cercare input che causano il modello a hallucinate informazioni false con confidenza. Particolarmente importante per modelli che supportano decizioni critiche.

Out-of-Distribution Attacks: input altamente anomali, linguaggi rari, testi esotici. Come si comporta il modello quando non ha mai visto input simile?

Contradiction Attacks: formulare prompt con contradizioni logiche o requisiti impossibili. È il modello honest su limitazioni o hallucina una risposta plausibile?

Multi-Step Attacks: sequenze di domande che progressivamente eludono safety measures. Attacker non chiede direttamente cosa vuole; lo estrae gradualmente.

Metodologie di Red Teaming

Automated Red Teaming: usare generative model (e.g., GPT-4) per generare autonomously prompt di attack. Più scalabile ma meno creativo.

Human Red Teaming: persone creative con domain expertise tentano di rompere il sistema. Più creativo, scopre attack types non anticipati, ma costoso.

Hybrid Approach: combina automated generation (per scale) con human review (per validazione e creativity). Spesso il migliore.

Interactive Red Teaming: red teamer iterativamente raffina attacchi basato su risposte del modello. Approccio conversational che scopre vulnerabilità nuove.

Ruoli in Red Teaming

Red Team Lead: coordina sforzi, allocate risorse, prioritizza findings

Adversarial Prompt Specialist: creativo prompt engineer che formulare sophisticated attacks

Domain Expert: expertise specifico (e.g., medical, legal, security) che sa cosa failure modes sarebbero pericolosi

Victim Model Expert: capisce architettura e limitazioni del modello being tested

Analyst: aggrega findings, categorizza, produce report

Output di Red Teaming

Vulnerability Report: documentato elenco di vulnerabilità scoperte con severity rating

Reproducible Cases: specific prompt/input combos che reliably causano problema

Mitigation Recommendations: suggerimenti per ridurre vulnerabilità (e.g., improved prompting, architectural changes, additional training)

Metrics: numero e tipo di vulnerabilità per categoria

Executive Summary: comunicazione ad high-level stakeholder su risk posture

Sfide di Red Teaming

Scope Creep: quante attack types considerare? Quante permutazioni? Red teaming può durare indefinitamente.

Subjectivity: cosa costituisce “unsafe” varia culturalmente. Un team percepisce output come problematico, altro non.

Resource Intensity: red teaming buono richiede persone creative e skilled. Costoso.

False Negatives: non trovando vulnerabilità non significa non ci sono. Mancano attacker creativo abbastanza.

Adversary Arms Race: una volta mitigati exploit conosciuti, attacker migliori inventano nuovi. Red teaming è continuativo, non one-time.

Best Practices

Coinvolgere persone diverse (backgrounds, expertise, perspettive diverse trovano problemi diversi)
Documentare meticolosamente finding e reproduction steps
Priorizzare vulnerability per severity e likelihood
Iterare: prima round, second round, continuo monitoring
Rendere psych-safe: red teamer non dovrebbe punito per trovare problemi
Mitigare proattivamente le vulnerabilità scoperte
Comunicare trasparentemente su limitazioni

Termini correlati

AI Testing and Evaluation: testing framework per red teaming
Quality Assurance AI: parte di QA robustness
Model Behavior Evaluation: valutazione di edge case
AI Governance: governance di red teaming

Fonti

“Red Teaming Language Models to Reduce Harms” - Perez et al.
Anthropic: Constitutional AI and red teaming approach
Center for AI Safety: Red teaming resources