Aggiunto il 15/05/2026
Inference-Time Scaling
ENInference-Time Scaling · uso non numerabile
ITInference-Time Scaling · gen. m. · uso non numerabile
Strategia AI che migliora le risposte allocando più calcolo al momento dell'inferenza, con ragionamento esteso, ricerche e verifiche, invece di addestrare modelli più grandi.
Il training scaling ha migliorato i modelli aumentando parametri e dati. L'inference-time scaling aggiunge un secondo asse: quante risorse si dedicano alla singola risposta. I modelli ragionatori come o1 eseguono lunghe catene di pensiero e verificano i risultati prima di rispondere. Una scoperta chiave è che un modello piccolo con molto budget computazionale a inferenza può superare uno 14 volte più grande con budget standard. Il compromesso è latenza e costo per query maggiori.