Aggiunto il 24/03/2026
Benchmark (AI)
Test di Valutazione
Test standardizzato che misura le capacita di un modello AI in aree specifiche (logica, matematica, programmazione, linguaggio), permettendo il confronto diretto tra modelli diversi.
Ogni benchmark propone un insieme fisso di domande con risposte verificabili: il punteggio indica quanto il modello riesce a rispondere correttamente. MMLU testa la conoscenza generale su 57 materie, HumanEval valuta la capacita di scrivere codice, MATH misura il ragionamento matematico. Il limite principale e che i modelli possono migliorare su un benchmark specifico senza diventare davvero piu capaci; per questo la comunita sviluppa continuamente nuovi test piu difficili da "aggirare", come GPQA per il ragionamento scientifico avanzato.