Aggiunto il 29/01/2026
Alignment
Allineamento
Campo di ricerca che mira a far si che un sistema di intelligenza artificiale si comporti in modo coerente con i valori e le intenzioni di chi lo ha progettato.
Il problema e strutturale: un modello AI ottimizza una funzione obiettivo, ma tradurre valori umani complessi in una funzione matematica e difficile. Un modello puo sembrare allineato in fase di addestramento e comportarsi diversamente in situazioni nuove. Le tecniche principali sono RLHF (feedback umano), constitutional AI (regole esplicite) e interpretabilita (capire cosa succede dentro la rete). Il campo e centrale per lo sviluppo sicuro dell'AI.