© 2026 CryptoGlossario

GlossarioInfoPrivacy
v2.0
CryptoGlossario
Aggiunto il 24/03/2026
🤖AI

Benchmark (AI)

ENBenchmark (AI) · pl. Benchmarks
ITBenchmark (AI) · inv.
CompostoTraslatoTecnico

Test standardizzato che misura le capacità di un modello AI in aree come logica, matematica, programmazione e linguaggio, permettendo il confronto diretto tra modelli diversi.

Ogni benchmark propone domande con risposte verificabili: il punteggio indica quanto il modello risponde correttamente. MMLU testa la conoscenza generale, HumanEval la scrittura di codice, MATH il ragionamento matematico. Il limite principale è che i modelli possono migliorare su un benchmark senza diventare davvero più capaci; per questo nascono test sempre più difficili da aggirare, come GPQA per il ragionamento scientifico.

Prestito integrale dall'inglese

Termine usato soprattutto nella forma originale

In italiano questo termine circola soprattutto in inglese o nella forma originale. Nel glossario non viene forzata una traduzione perché la forma d'uso più naturale resta quella internazionale.

Termini Correlati

Chain of Thought

Catena di pensiero

2.0x
🤖AI

Tecnica di prompting che chiede al modello AI di mostrare i passaggi intermedi del ragionamento: migliora la precisione su compiti logici, matematici e di analisi complessa.

Prompt Injection

 

1.9x
🤖AI🔐Crittografia

Attacco ai sistemi AI in cui input malevolo inganna il modello facendogli ignorare le istruzioni originali e seguire quelle dell'attaccante, aggirando i filtri di sicurezza.

Few-shot Learning

Apprendimento con pochi esempi

1.7x
🤖AI

Tecnica che fornisce al modello AI pochi esempi del compito richiesto direttamente nel prompt, per guidarne il formato e lo stile della risposta senza modificare il modello stesso.

Multi-agent

Multi-agente

1.7x
🤖AI🖥️Informatica

Architettura AI in cui più agenti indipendenti collaborano per completare un compito: ognuno ha un ruolo specializzato e può consultare gli altri o usare strumenti distinti.

Non-deterministic

Non deterministico

1.7x
🤖AI🖥️Informatica

Sistema o algoritmo che produce risultati diversi con lo stesso input: il comportamento dipende da fattori casuali, temporali o contestuali non completamente controllabili.

Evals

 

1.5x
🤖AI🖥️Informatica

Test standardizzati per misurare le prestazioni di un modello AI su compiti specifici: accuratezza, ragionamento, codice o capacità di seguire istruzioni.