Aggiunto il 29/01/2026
Jailbreak
ENJailbreak · pl. Jailbreaks
ITJailbreak · inv.
Tecnica con cui un utente tenta di aggirare le restrizioni di sicurezza di un modello AI per fargli produrre contenuti che normalmente rifiuterebbe di generare.
I metodi più comuni includono il role-playing (chiedere al modello di impersonare un personaggio senza filtri), l'iniezione di istruzioni nascoste e la riformulazione creativa delle richieste. I fornitori rispondono con guardrail sempre più sofisticati, ma il jailbreak resta un gioco del gatto col topo: ogni nuova difesa genera nuove tecniche di aggiramento. Il fenomeno e studiato nell'ambito dell'AI Safety e del red-teaming.