Aggiunto il 29/01/2026
Evals
Test standardizzati per misurare le prestazioni di un modello AI su compiti specifici: accuratezza, ragionamento, codice o capacità di seguire istruzioni.
Gli evals si basano su dataset di riferimento con risposte attese, chiamati benchmark. Ogni test misura una capacità distinta: un eval di matematica non rivela nulla sulla capacità di scrivere codice. Il risultato è un punteggio che consente confronti tra modelli diversi o versioni successive dello stesso. Nel ciclo di sviluppo AI, gli evals guidano le scelte di addestramento e segnalano regressioni dopo ogni aggiornamento del modello.