Aggiunto il 24/03/2026

RLHF (Reinforcement Learning from Human Feedback)

Apprendimento per Rinforzo da Feedback Umano

Tecnica di addestramento che usa le valutazioni di revisori umani per insegnare a un modello AI quali risposte sono utili, accurate e sicure, e quali vanno evitate.

Il processo funziona in tre fasi: prima il modello viene addestrato su testo generico; poi revisori umani confrontano coppie di risposte e indicano quale è migliore; infine un secondo modello (reward model) impara da quelle preferenze e guida l'addestramento del principale. È il metodo usato da ChatGPT, Claude e altri assistenti per passare da un modello generico a uno che segue istruzioni e rifiuta richieste pericolose.