Intelligence Artificielle

Fine-tuning vs prompting vs MCP : quelle approche pour votre agent métier ?

Q: Le prompting a-t-il des limites ?

Oui. Le prompting ne peut pas changer les poids du modèle : si le modèle de base ne connaît pas votre jargon métier hyper-spécifique, un prompt ne l'apprendra pas. De même, le prompting ne peut pas injecter de connaissances à jour (données postérieures au cutoff du modèle). Pour ces deux cas, le MCP (accès à des ressources en temps réel) ou le fine-tuning sont plus adaptés.

Q: MCP et fine-tuning sont-ils complémentaires ?

Oui, mais c'est rare d'en avoir besoin des deux. MCP + prompting couvre 90 % des cas. Le 10 % restant est soit du fine-tuning pour le style et le vocabulaire, soit du RAG pour les bases de connaissances. Combiner les trois est une architecture avancée qui se justifie pour des agents déployés à grande échelle avec des exigences très spécifiques.

Simon Beros 10 avril 2026 11 min de lecture

Quand une entreprise envisage de déployer un agent IA spécialisé sur son métier, une question revient systématiquement : faut-il entraîner un modèle sur nos données ? La réponse qu’on entend souvent dans les discussions techniques est « ça dépend », ce qui n’aide personne. Voici une réponse plus directe, basée sur des projets déployés en production.

Dans 90 % des cas d’agents métiers en entreprise, la combinaison d’un prompting bien structuré et de serveurs MCP donnant accès aux données pertinentes surpasse le fine-tuning en termes de qualité de résultat, de rapidité de déploiement et de coût total. Le fine-tuning reste pertinent dans un périmètre précis que nous détaillerons.

Les trois approches : définitions opérationnelles

Avant de comparer, clarifions ce que chacune de ces approches fait réellement.

Le fine-tuning

Le fine-tuning consiste à reprendre un modèle de base et à continuer son entraînement sur un corpus de données spécifiques à votre domaine. L’objectif est de modifier les poids du modèle pour qu’il adopte un style, un vocabulaire ou des comportements caractéristiques de votre contexte métier.

Le fine-tuning est efficace pour : adopter un style rédactionnel très spécifique, mémoriser un vocabulaire propriétaire non présent dans les données d’entraînement original, produire des formats de sortie très contraints de façon systématique.

Le fine-tuning ne fait pas : il n’augmente pas les capacités de raisonnement du modèle, il n’injecte pas de connaissances à jour sur votre entreprise, il ne lui permet pas d’accéder à vos systèmes.

Le prompting avancé

Le prompting consiste à structurer l’instruction donnée à l’agent pour lui fournir le contexte, les règles métier, les exemples et le comportement attendu. Un system prompt bien conçu peut transformer radicalement le comportement d’un modèle de base sur une tâche spécifique sans toucher à ses poids.

Les techniques avancées incluent : le few-shot prompting (exemples de cas résolus inclus dans le contexte), le chain-of-thought (instruction de raisonner étape par étape avant de répondre), le XML structuring (organisation du system prompt en sections XML pour clarifier les rôles et les règles), et les instructions négatives (liste de ce que l’agent ne doit pas faire).

Le MCP (Model Context Protocol)

Le MCP permet à l’agent d’accéder à des informations et des outils au moment de l’exécution. Plutôt que de tout injecter dans le system prompt (qui a une taille limitée et est statique), l’agent peut interroger une base de connaissances, lire un fichier, appeler un outil métier, récupérer des données CRM, au moment précis où il en a besoin.

Le MCP transforme l’agent d’un système à contexte fixe en un système à contexte dynamique : il sait ce qu’il doit chercher, il va le chercher, et il agit avec des informations fraîches et précises.

Pourquoi MCP + prompting surpasse le fine-tuning dans 90 % des cas

La raison fondamentale est structurelle : le fine-tuning modifie ce que le modèle sait, le MCP modifie ce que le modèle a accès à. Pour un agent métier, l’accès à l’information correcte au bon moment est presque toujours plus utile que la mémorisation de patterns dans les poids.

Argument 1 : les données métier changent plus vite que les cycles de fine-tuning

Vos prix changent. Votre catalogue évolue. Vos règles commerciales s’adaptent. Votre équipe réorganise ses processus. Un modèle fine-tuné sur ces données a une durée de vie limitée : six mois après le fine-tuning, une partie significative des données injectées est obsolète, et un nouveau cycle d’entraînement est nécessaire.

Un agent avec un outil MCP get_current_pricing() interroge votre base de prix en temps réel à chaque conversation. Pas de décalage, pas de coût de ré-entraînement. La connaissance est toujours à jour.

Argument 2 : le fine-tuning ne résout pas les problèmes d’hallucination sur des faits précis

Un modèle fine-tuné sur votre catalogue produit apprend des patterns statistiques sur ce catalogue. Mais face à une requête sur un produit rare ou une configuration exceptionnelle, il peut halluciner une spécification plausible mais fausse.

Un agent avec un outil search_product_catalog(query: string) interroge votre catalogue réel et retourne la fiche exacte. Zéro hallucination sur les données factuelles, parce que l’agent ne mémorise pas les faits : il les consulte.

Argument 3 : le coût et la complexité du fine-tuning sont prohibitifs pour la plupart des PME et ETI

Un projet de fine-tuning sérieux nécessite :

Un corpus de données annotées de qualité (typiquement 1 000 à 10 000 exemples de paires instruction-réponse)
Des GPU pour l’entraînement (8 × H100 pendant plusieurs jours pour un modèle 30B+)
Une infrastructure de test pour mesurer la régression
Des cycles d’itération si les premiers résultats ne sont pas satisfaisants

Le coût total d’un premier fine-tuning sur un modèle de taille production dépasse souvent 20 000 euros en temps-homme et compute combinés. Pour un agent dont la tâche est bien délimitée et les données accessibles via API, un serveur MCP bien conçu produit de meilleurs résultats pour 5 à 10 fois moins cher.

Argument 4 : le prompting est réversible et itératif

Si votre system prompt ne donne pas les bons résultats sur certains cas, vous le modifiez et redéployez en minutes. Si votre fine-tuning produit des régressions sur des cas non couverts par vos données d’entraînement, vous devez relancer un cycle complet.

Cette réversibilité du prompting est un avantage opérationnel immense dans les phases d’ajustement post-déploiement, qui durent typiquement 4 à 8 semaines en production.

Tableau comparatif des trois approches

Critère	Fine-tuning	Prompting avancé	MCP
Coût initial	Élevé (20 k€+)	Faible (heures de travail)	Moyen (développement serveur)
Délai de mise en œuvre	Semaines à mois	Jours	Jours à semaines
Données à jour	Non (statique)	Non (statique)	Oui (temps réel)
Réversibilité	Faible	Immédiate	Moyenne
Gestion des faits précis	Risque d’hallucination	Risque d’hallucination	Fiable (lookup en temps réel)
Adaptation au style métier	Excellente	Très bonne avec few-shot	Indépendante
Capacité de raisonnement	Non améliorée	Guidée par structure	Non améliorée
Scalabilité	Décuple avec ré-entraînement	Immédiate	Dépend des APIs

Les cas où le fine-tuning reste pertinent

Malgré tout ce qui précède, le fine-tuning a sa place dans trois situations spécifiques.

Style et format de sortie très contraints

Certains métiers ont des formats de sortie extrêmement codifiés : décisions juridiques avec une structure imposée par la réglementation, rapports médicaux avec des sections précises et un vocabulaire normé, documents financiers avec des formulations standardisées. Un fine-tuning sur des milliers d’exemples de sorties conformes peut produire un niveau de cohérence stylistique difficile à atteindre par le seul prompting.

Vocabulaire et jargon ultra-spécifique absents des données d’entraînement

Si votre entreprise utilise des termes propriétaires, des acronymes internes ou une terminologie tellement niche qu’elle n’apparaît pas dans les données d’entraînement des modèles de base, le fine-tuning peut aider le modèle à les comprendre et les utiliser correctement. Cela dit, un glossaire injecté via un outil MCP get_company_glossary() couvre souvent ce besoin de façon plus économique.

Distillation d’un modèle large vers un modèle petit

Dans certains cas de déploiement à très grande échelle ou sur des contraintes hardware fortes (inference sur mobile, edge computing), on veut un petit modèle (4B, 7B) qui se comporte comme un grand. Le fine-tuning du petit modèle avec des exemples générés par le grand modèle (distillation) est une technique valide dans ce cas précis.

La combinaison optimale pour un agent métier typique

Pour un agent de production standard, voici l’architecture que nous recommandons et que nous déployons chez VirtuoseWeb :

Couche 1 — Modèle de base : Claude Sonnet 4.6 (Voie 1) ou Gemma 4 31B (Voie 2/3). Aucun fine-tuning. On utilise la puissance de raisonnement native du modèle.

Couche 2 — System prompt structuré : description du rôle de l’agent, règles métier en XML structuré, exemples de cas résolus (few-shot), liste des outils disponibles avec leurs descriptions, instructions sur la gestion des cas ambigus et les conditions d’escalade.

Couche 3 — Outils MCP : accès en temps réel aux données métier (CRM, ERP, base de connaissance, catalogue produit), actions sur les systèmes cibles (mise à jour, notification, création d’entrées), outils de recherche dans la documentation interne.

Couche 4 — Prompt caching : pour les system prompts longs et les bases de connaissances fréquemment consultées, le prompt caching de Claude réduit considérablement le coût par session en évitant de re-processer le contexte statique à chaque appel.

Cette architecture à quatre couches couvre 90 % des besoins des agents métiers en entreprise, sans fine-tuning, pour un budget de setup entre 1 990 € et 19 900 € selon la taille du projet.

Erreurs fréquentes dans le choix d’approche

Commencer par le fine-tuning « pour être sûr ». Des équipes techniques, par familiarité avec le machine learning classique, proposent systématiquement le fine-tuning comme première étape. C’est souvent une perte de temps et d’argent. Commencez toujours par MCP + prompting, mesurez les résultats, et n’envisagez le fine-tuning que si les résultats mesurés montrent des insuffisances que cette approche résoudrait.

Croire que plus de tokens dans le system prompt = meilleur résultat. Un system prompt de 10 000 tokens mal structuré est moins efficace qu’un prompt de 2 000 tokens bien organisé. La clarté et la structure (utilisation de XML, d’exemples pertinents, d’instructions négatives explicites) comptent plus que la longueur.

Ignorer la maintenance du system prompt. Un system prompt est un artefact vivant. À mesure que votre agent rencontre des cas non prévus, que vos règles métier évoluent, que vous découvrez des comportements indésirables, le prompt doit être mis à jour. Traitez-le comme du code : versionné, testé, documenté.

Comment démarrer

Si vous en êtes à vous poser la question « fine-tuning ou prompting ? », c’est souvent signe que vous avez déjà une idée précise de ce que vous voulez que votre agent fasse. C’est une bonne nouvelle : cela signifie que vous pouvez démarrer rapidement avec MCP + prompting et avoir des résultats mesurables en production dans les deux premières semaines.

Notre guide de diagnostic SOP vous aide à formaliser le périmètre de votre agent avant de choisir une architecture. Et si vous voulez passer directement à l’évaluation de votre projet spécifique, notre audit SOP gratuit de 30 minutes est le point de départ le plus direct.

Appel gratuit

Une question sur ce sujet ?

Échangeons 30 minutes — audit de votre situation + recommandations personnalisées offertes.

Réserver un créneau →

FAQ

Questions fréquentes

Vos questions sur l'intelligence artificielle appliquée au business.

Le fine-tuning rend-il un modèle plus intelligent ?

Non. Le fine-tuning modifie le style de réponse, le vocabulaire et les comportements du modèle, mais n'augmente pas ses capacités de raisonnement fondamentales. Un modèle fine-tuné sur des données comptables sera plus familier du vocabulaire comptable, mais ne raisonnera pas mieux qu'avant sur des problèmes comptables complexes. Pour améliorer la qualité du raisonnement, mieux vaut monter de modèle ou améliorer le contexte disponible.

Combien coûte un fine-tuning sur Claude ?

Anthropic ne propose pas encore de fine-tuning en self-service sur Claude comme OpenAI le fait avec GPT. Le fine-tuning sur modèles Claude est disponible via des partenariats enterprise. Pour les modèles open source (Gemma 4, Mistral), le fine-tuning nécessite des GPU disponibles (typiquement 8 × H100) et plusieurs jours de calcul. Le coût total (calcul + annotation des données + itération) dépasse souvent 20 000 euros pour un projet sérieux.

Le prompting a-t-il des limites ?

MCP et fine-tuning sont-ils complémentaires ?

Qu'est-ce que le RAG et est-ce différent du MCP ?

Le RAG (Retrieval-Augmented Generation) est une technique qui injecte des documents pertinents dans le contexte de l'agent au moment de l'inférence. Le MCP est un protocole d'accès aux outils et ressources. Les deux peuvent coexister : un serveur MCP peut exposer un outil de recherche RAG, que l'agent appelle quand il a besoin de connaissances spécifiques. RAG et MCP ne sont pas concurrents, ils sont complémentaires.

Services associés

Offre gratuite

Besoin d'un regard expert ?

Audit digital gratuit — analyse de votre site, SEO et potentiel de conversion. Livré en 48 h.

Prêt à passer à l'action ?

Réservez votre appel découverte gratuit — audit offert à l'issue de l'échange.

Réservez

Choisir mon créneau → Voir nos services