Aggiunto il 29/01/2026
Jailbreak
Tecnica con cui un utente tenta di aggirare le restrizioni di sicurezza di un modello AI per fargli produrre contenuti che normalmente rifiuterebbe di generare.
I metodi piu comuni includono il role-playing (chiedere al modello di impersonare un personaggio senza filtri), l'iniezione di istruzioni nascoste e la riformulazione creativa delle richieste. I fornitori rispondono con guardrail sempre piu sofisticati, ma il jailbreak resta un gioco del gatto col topo: ogni nuova difesa genera nuove tecniche di aggiramento. Il fenomeno e studiato nell'ambito dell'AI Safety e del red-teaming.