Dataset
Insieme di Dati
Raccolta strutturata di dati (testi, immagini, audio, numeri) usata per addestrare, testare o valutare un modello AI: la qualita del dataset determina la qualita del modello risultante.
Un modello AI non impara da istruzioni esplicite ma da esempi: il dataset e il suo libro di testo. Se il libro contiene errori, omissioni o squilibri, il modello li assorbe. Per questo la cura del dataset (pulizia, bilanciamento, rimozione di dati sensibili) occupa spesso piu tempo della progettazione del modello stesso. I dataset possono essere aperti, come quelli ospitati su Hugging Face, oppure proprietari e tenuti riservati come vantaggio competitivo. La scala varia da poche migliaia di esempi per il Fine-tuning a trilioni di token per l'addestramento da zero.