Aggiunto il 24/03/2026
Tokenizer
Componente software che scompone il testo in token prima che il modello AI lo elabori: decide come dividere le parole, definendo il vocabolario che il modello comprende.
Ogni modello ha il proprio tokenizer con regole diverse. La parola 'criptovaluta' potrebbe diventare un token unico o due ('cripto', 'valuta') a seconda del modello. I tokenizer influenzano costi e prestazioni: uno efficiente per l'italiano usa meno token per la stessa frase, riducendo i costi. Le lingue con alfabeti complessi (cinese, arabo) tendono a richiedere piu token per lo stesso contenuto rispetto all'inglese.