Aggiunto il 24/03/2026

Benchmark (AI)

ENBenchmark (AI) · pl. Benchmarks

ITBenchmark (AI) · inv.

Test standardizzato che misura le capacità di un modello AI in aree come logica, matematica, programmazione e linguaggio, permettendo il confronto diretto tra modelli diversi.

Ogni benchmark propone domande con risposte verificabili: il punteggio indica quanto il modello risponde correttamente. MMLU testa la conoscenza generale, HumanEval la scrittura di codice, MATH il ragionamento matematico. Il limite principale è che i modelli possono migliorare su un benchmark senza diventare davvero più capaci; per questo nascono test sempre più difficili da aggirare, come GPQA per il ragionamento scientifico.