Aggiunto il 24/03/2026
Benchmark (AI)
ENBenchmark (AI) · pl. Benchmarks
ITBenchmark (AI) · inv.
Test standardizzato che misura le capacità di un modello AI in aree come logica, matematica, programmazione e linguaggio, permettendo il confronto diretto tra modelli diversi.
Ogni benchmark propone domande con risposte verificabili: il punteggio indica quanto il modello risponde correttamente. MMLU testa la conoscenza generale, HumanEval la scrittura di codice, MATH il ragionamento matematico. Il limite principale è che i modelli possono migliorare su un benchmark senza diventare davvero più capaci; per questo nascono test sempre più difficili da aggirare, come GPQA per il ragionamento scientifico.