Aggiunto il 29/01/2026

Corrigibility

Correggibilità

Proprietà di un'intelligenza artificiale che accetta di essere corretta, fermata o modificata dagli esseri umani, anche quando questo contrasta con i suoi obiettivi immediati.

Un modello AI corrigibile non resiste ai tentativi di spegnerlo o riaddestrarlo, anche se ciò interrompe un compito. Questa proprietà è fondamentale nell'AI safety: un sistema che difende i propri obiettivi contro la supervisione è difficile da correggere. La tensione è sottile: un modello troppo corrigibile esegue qualsiasi ordine, anche dannoso; uno troppo autonomo ignora la supervisione. L'equilibrio è il nucleo del problema del controllo.