Aggiunto il 12/05/2026

Prompt Caching

ENPrompt Caching · senza plurale comune

ITCache dei Prompt · femminile · invariabile

Tecnica che fa risparmiare tempo quando più richieste a un modello AI iniziano con lo stesso testo: il sistema conserva una parte del lavoro già fatto e la riusa.

Quando un modello elabora un testo, calcola vettori chiave-valore (KV-cache) per ogni token. Il prompt caching salva questa computazione e la riusa nelle chiamate successive con lo stesso inizio. Anthropic lo attiva automaticamente; OpenAI lo applica alle richieste oltre certe soglie. Il risparmio è significativo: latenza ridotta fino all'80% e costo fino al 50% in meno per i segmenti in cache. È utile per sistemi che inviano ogni volta lo stesso contesto esteso, come istruzioni di sistema.