Intelligence Artificielle

Prompt caching Claude : réduire de 90 % le coût de vos agents en production

Simon Beros 11 min de lecture

Quand vous déployez un agent IA en production, le coût des tokens ne tarde pas à devenir un sujet de conversation. Un agent qui traite 200 documents par jour, avec un system prompt de 10 000 tokens chargé à chaque appel, peut consommer des centaines de milliers de tokens d’entrée par mois sans même avoir commencé à traiter le contenu utile. C’est là que le prompt caching entre en jeu.

Le prompt caching est probablement l’optimisation économique la plus simple à activer sur Claude, et l’une des plus impactantes. Une fois compris le mécanisme, on se demande pourquoi on ne le configure pas par défaut sur tous les agents dès le premier déploiement. Spoiler : avec Claude Managed Agents, c’est précisément ce qui se passe.

Comment fonctionne le prompt caching Claude

Le problème qu’il résout

Un appel à l’API Claude se compose de plusieurs blocs : le system prompt (instructions de l’agent), les messages précédents dans la conversation, et le message utilisateur courant. À chaque appel, Anthropic tokenise et traite l’intégralité de ce contenu.

Le system prompt d’un agent de production est typiquement long : 2 000 à 15 000 tokens. Il contient les instructions métier, les règles de décision, les exemples de comportement attendu, les formats de sortie, parfois des documents de référence entiers. Et il est identique d’un appel à l’autre.

Sans caching, ces mêmes 10 000 tokens sont facturés en tokens d’entrée à chaque appel. Sur 500 appels par jour, cela représente 5 millions de tokens d’entrée par jour, uniquement pour le system prompt.

La mécanique du cache

Anthropic a introduit une fonctionnalité de cache persistent dans l’API. Elle fonctionne ainsi :

  1. Vous marquez un préfixe de prompt avec un cache control (cache_control: {"type": "ephemeral"} ou la durée longue).
  2. À la première utilisation, ce préfixe est écrit en cache : coût légèrement supérieur à un token d’entrée normal.
  3. Aux appels suivants, si le préfixe est identique, Claude lit depuis le cache : coût très inférieur à un token d’entrée normal.

La durée de vie du cache par défaut est de 5 minutes. Une option de cache longue durée (1 heure ou plus) est disponible.

Les multiplicateurs de coût

Les multiplicateurs exacts varient selon le modèle Claude utilisé. Les lignes directrices publiées sur la documentation officielle de pricing Anthropic donnent les ratios suivants :

ActionMultiplicateur par rapport au prix normal d’entrée
Écriture en cache (TTL 5 min)1,25× (légèrement plus cher)
Écriture en cache (TTL 1 h) (deux fois plus cher)
Lecture depuis cache0,1× (dix fois moins cher)

La lecture en cache coûte donc environ 90 % moins cher qu’un token d’entrée normal.

Les seuils de rentabilité

Cache TTL 5 minutes

Si l’écriture coûte 1,25 fois le prix normal et la lecture 0,1 fois, la rentabilité s’obtient ainsi :

1 écriture (1,25×) + N lectures (0,1× chacune) < (N+1) lectures normales (1× chacune)
1,25 + 0,1N < N + 1
0,25 < 0,9N
N > 0,28

Dès la première relecture dans la fenêtre de 5 minutes, le caching est rentable. En pratique, cela signifie que si vous faites au moins 2 appels en 5 minutes avec le même system prompt, vous économisez.

Cache TTL 1 heure

Avec une écriture à 2× :

2 + 0,1N < N + 2
0,1N < N - 2 + 2
2 < 0,9N
N > 2,22

Avec la durée longue, le seuil est de 3 relectures dans la fenêtre d’une heure pour couvrir le surcoût d’écriture et commencer à économiser.

Pour un agent qui traite des documents en rafale (10 documents en 30 minutes, par exemple), la durée longue est toujours rentable. Pour un agent peu sollicité (1-2 appels par heure), le cache TTL 5 min est souvent plus adapté.

Cas concret : un agent de back-office

Configuration de l’agent

Un agent de back-office gère les relances clients, le classement des factures et la mise à jour du CRM. Son system prompt inclut :

  • Les instructions d’agent : 3 000 tokens
  • Les règles métier et exemples : 5 000 tokens
  • Le template des emails de relance : 2 000 tokens

Total system prompt : 10 000 tokens

Le modèle utilisé est Claude Sonnet 4.6 (3 $ par million de tokens d’entrée, 15 $ par million de tokens de sortie selon la tarification Anthropic).

Sans caching

L’agent traite 500 dossiers par mois, avec en moyenne 4 appels par dossier = 2 000 appels.

Tokens d'entrée par appel : 10 000 (system) + 500 (contexte dossier) = 10 500
Total tokens d'entrée/mois : 2 000 × 10 500 = 21 millions
Coût tokens d'entrée : 21 × 3 $ = 63 $ ≈ 58 €

Ajoutez les tokens de sortie (200 tokens × 2 000 appels = 400 000 tokens, soit 6 $ ≈ 5,5 €). Total : ~63,5 €/mois.

Ce chiffre semble modeste ici, mais il se multiplie rapidement avec un agent plus intensif. Un agent de support client à 5 000 appels par mois avec un system prompt de 20 000 tokens arrive à 300-400 € de tokens d’entrée seuls.

Avec caching du system prompt

Avec le prompt caching activé sur le system prompt (10 000 tokens) :

2 000 appels, dont :
- ~400 écritures en cache (réinitialisations toutes les 5 min, avec une relecture en moyenne)
- ~1 600 lectures depuis cache

Coût écriture : 400 × 10 000 × 3 $ / 1M × 1,25 = 15 $
Coût lecture cache : 1 600 × 10 000 × 3 $ / 1M × 0,1 = 4,8 $
Coût contexte dossier (non caché) : 2 000 × 500 × 3 $ / 1M = 3 $
Total tokens d'entrée : 22,8 $ ≈ 21 €

Économie : ~37 € sur 58 €, soit 64 % de réduction sur les tokens d’entrée.

En configuration plus intensive (beaucoup de relectures du même cache sur des agents à fort volume), les économies atteignent 85-90 % sur les tokens d’entrée.

Stratégie de caching pour les architectures multi-agents

Dans une architecture multi-agents, le prompt caching prend encore plus de valeur. Un agent orchestrateur qui délègue à 5 agents spécialisés peut partager un contexte commun (règles d’entreprise, données de référence) mis en cache une seule fois et partagé entre les sous-agents.

Les patterns à retenir :

Pattern 1 — Cache du contexte partagé : Injectez les règles métier communes et les documents de référence en début de conversation, marquez-les en cache. Chaque sous-agent les relit depuis le cache.

Pattern 2 — Cache des instructions longues : Si votre agent doit analyser un document de 50 000 tokens (un contrat, un rapport annuel), mettez-le en cache au début du traitement. Tous les appels d’analyse successifs sur ce document liront depuis le cache.

Pattern 3 — Cache de la mémoire conversationnelle : Pour les agents avec historique long, marquez la portion stable de l’historique (les 20 premiers messages) en cache et laissez seulement les 2-3 derniers messages en zone dynamique.

Claude Managed Agents et le caching automatique

L’un des avantages concrets du service Claude Managed Agents est que le caching est activé et optimisé automatiquement par l’infrastructure Anthropic. Vous n’avez pas à configurer les marqueurs de cache manuellement dans chaque appel.

Le service gère :

  • Le caching du system prompt de l’agent
  • Le caching de l’environnement (documents injectés dans l’espace de travail de l’agent)
  • La compaction automatique de la mémoire de contexte (pour éviter de dépasser la fenêtre de contexte)

Cette optimisation automatique est l’une des raisons pour lesquelles le coût réel d’un agent Managed est souvent inférieur à ce qu’un calcul naïf en tokens bruts suggérerait.

Intégrer le caching dans votre calcul ROI

Si vous avez utilisé la méthode de calcul ROI présentée dans notre guide, vous pouvez affiner vos estimations en appliquant un facteur correcteur sur les tokens d’entrée :

Ratio relectures par écritureFacteur de coût tokens d’entrée
< 1 relecture1,0× (pas de gain)
2-4 relectures0,4-0,6×
5-10 relectures0,25-0,35×
> 10 relectures0,15-0,20×

Pour un agent de production à fort volume (plus de 10 appels sur le même system prompt entre deux réinitialisations), appliquez 0,15 à 0,20 sur vos tokens d’entrée pour l’estimation.

Ce que le caching ne remplace pas

Le prompt caching optimise le coût, mais ne remplace pas les autres bonnes pratiques d’économie de tokens :

  • Choisir le bon modèle : Claude Haiku 4.5 coûte environ 17× moins par token d’entrée qu’Opus 4.6. Pour les tâches de volume à faible complexité, c’est une décision économique bien plus impactante que le caching.
  • Minimiser le contexte injecté : n’injectez que ce qui est nécessaire dans le system prompt. Un system prompt de 3 000 tokens bien écrit vaut mieux qu’un de 12 000 tokens redondant.
  • Structurer les outils correctement : des appels d’outils mal conçus peuvent multiplier les tokens de réponse. Un outil qui retourne 10 000 tokens alors que l’agent n’en a besoin que de 200 coûte cher.

La combinaison du caching, du bon choix de modèle et d’un design soigné des tools est ce qui permet de tenir des coûts de 0,50 à 1 € par heure de travail actif d’agent en production.

Étape suivante : configurer votre agent de production

Si vous êtes en train de construire votre premier agent ou de passer d’un prototype à la production, l’activation du prompt caching est l’une des premières optimisations à mettre en place. Notre équipe l’intègre systématiquement dans chaque déploiement VirtuoseWeb.

Pour aller plus loin sur la maîtrise des coûts en production, explorez également les 5 erreurs fréquentes lors du déploiement d’un premier agent IA. Et si vous souhaitez valider votre architecture avant de passer à l’échelle, l’audit SOP gratuit de 30 minutes est le point de départ idéal.

Appel gratuit

Une question sur ce sujet ?

Échangeons 30 minutes — audit de votre situation + recommandations personnalisées offertes.

Réserver un créneau →
FAQ

Questions fréquentes

Vos questions sur l'intelligence artificielle appliquée au business.

Offre gratuite

Besoin d'un regard expert ?

Audit digital gratuit — analyse de votre site, SEO et potentiel de conversion. Livré en 48 h.

Pas de spam. Désabonnement en un clic.

Prêt à passer à l'action ?

Réservez votre appel découverte gratuit — audit offert à l'issue de l'échange.

30%