Aggiunto il 24/03/2026

Multimodale

Modello AI capace di ricevere e combinare tipi di dati diversi (testo, immagini, audio, video) nella stessa conversazione, invece di lavorare su un solo formato alla volta.

Un modello solo testuale puo leggere una domanda ma non guardare una foto allegata. Un modello multimodale, invece, analizza la foto, la incrocia con il testo e restituisce una risposta che tiene conto di entrambi. Nella pratica significa poter caricare un grafico e chiedere "cosa mostra questo andamento?", oppure inviare una nota vocale e ottenere un riassunto scritto. GPT-4o e Gemini hanno reso questa capacita accessibile al pubblico, aprendo scenari come assistenti visivi per non vedenti o analisi automatica di documenti misti.