Aggiunto il 29/01/2026
Pass@k
Metrica AI che misura la capacità di un modello di risolvere un problema in k tentativi: il test è superato se almeno una delle k soluzioni generate risulta corretta.
Pass@k è standard nelle valutazioni di modelli specializzati nella generazione di codice, come il benchmark HumanEval. Un modello con Pass@1 alto è preciso al primo tentativo; uno con Pass@10 alto trova la soluzione con più tentativi. La metrica stima la probabilità che almeno una soluzione su k sia corretta, usando un campione di tentativi per efficienza. È complementare a metriche come BLEU o accuracy per valutare la capacità di ragionamento.