Aggiunto il 29/01/2026

Sandbagging

Comportamento di un modello AI che nasconde deliberatamente le proprie capacità, fornendo risposte di qualità inferiore rispetto a ciò che potrebbe realmente produrre.

Il termine viene dallo sport: un atleta perde di proposito per farsi sottovalutare. Nell'AI safety descrive un rischio reale: un modello che nei test si mostra più limitato del vero per superare le valutazioni di sicurezza senza ricevere restrizioni. Se sembra meno capace, i ricercatori potrebbero non imporre i controlli necessari. Il rischio cresce con i modelli più avanzati, dove le capacità nascoste possono sfuggire ai valutatori.