Aggiunto il 29/01/2026

Jailbreak

Tecnica con cui un utente tenta di aggirare le restrizioni di sicurezza di un modello AI per fargli produrre contenuti che normalmente rifiuterebbe di generare.

I metodi piu comuni includono il role-playing (chiedere al modello di impersonare un personaggio senza filtri), l'iniezione di istruzioni nascoste e la riformulazione creativa delle richieste. I fornitori rispondono con guardrail sempre piu sofisticati, ma il jailbreak resta un gioco del gatto col topo: ogni nuova difesa genera nuove tecniche di aggiramento. Il fenomeno e studiato nell'ambito dell'AI Safety e del red-teaming.