Aggiunto il 24/03/2026
RLHF (Reinforcement Learning from Human Feedback)
Apprendimento per Rinforzo da Feedback Umano
Tecnica di addestramento che usa le valutazioni di revisori umani per insegnare a un modello AI quali risposte sono utili, accurate e sicure, e quali vanno evitate.
Il processo funziona in tre fasi: prima il modello viene addestrato su testo generico; poi revisori umani confrontano coppie di risposte e indicano quale è migliore; infine un secondo modello (reward model) impara da quelle preferenze e guida l'addestramento del principale. È il metodo usato da ChatGPT, Claude e altri assistenti per passare da un modello generico a uno che segue istruzioni e rifiuta richieste pericolose.