Fine-tuning vs prompt engineering : comment choisir ?

15 mai 20256 min

“On devrait fine-tuner le modèle” est une phrase que j’entends souvent quand les résultats ne sont pas satisfaisants. La plupart du temps, ce n’est pas la bonne solution. Voici comment décider.

Le réflexe fine-tuning, pourquoi il est souvent prématuré

Le fine-tuning est présenté comme la solution pour “personaliser” un LLM sur votre domaine. C’est vrai — mais c’est aussi coûteux, long, et ça introduit de la dette technique.

Avant de fine-tuner, la vraie question est : avez-vous vraiment épuisé les possibilités du prompt engineering ?

Dans ma pratique, 80% des cas où on parle de fine-tuning se résolvent avec un meilleur prompt système, des exemples few-shot bien choisis, ou une meilleure structuration des inputs.

Quand le prompt engineering suffit

Format de sortie. Vous voulez que le modèle réponde toujours en JSON avec une structure précise → prompt engineering avec un schéma explicite et des exemples.

Ton et style. Vous voulez un agent qui parle comme votre marque → prompt engineering avec des exemples de formulations souhaitées.

Règles métier. Vous voulez que l’agent applique des règles spécifiques à votre domaine → prompt engineering avec les règles explicitement listées.

Comportement sur des cas limites. Vous voulez que l’agent dise “je ne sais pas” plutôt qu’halluciner → prompt engineering avec des instructions explicites sur la gestion de l’incertitude.

Quand le fine-tuning a du sens

Volume d’appels très élevé. Un modèle fine-tuné plus petit peut remplacer un gros modèle générique pour des tâches répétitives, avec un coût d’inférence 10x inférieur. À 10M de requêtes/mois, l’économie peut être massive.

Tâche très spécialisée avec beaucoup de données. Si vous avez 10 000+ exemples de haute qualité dans un domaine très spécifique (droit médical, notation financière, traduction technique), le fine-tuning peut produire des résultats supérieurs aux modèles génériques.

Latence critique. Un modèle fine-tuné plus petit répond plus vite. Pour des applications temps réel, ça peut faire la différence.

Confidentialité. Si vous fine-tunez et hébergez votre propre modèle, vos données de production ne quittent pas votre infrastructure.

Le processus de décision

Avant de parler fine-tuning, répondez à ces questions :

Avez-vous au moins 1 000 exemples de qualité (input/output) pour l’entraînement ?
Avez-vous une équipe capable de maintenir le pipeline de fine-tuning dans le temps ?
Avez-vous d’abord tenté d’optimiser le prompt avec des exemples few-shot ?
Avez-vous mesuré que le modèle générique est insuffisant sur vos cas réels ?

Si vous répondez non à l’une de ces questions, le fine-tuning est prématuré.

Ce que je recommande

Commencez toujours par le prompt engineering. Testez avec des exemples few-shot (3 à 10 exemples dans le prompt). Mesurez les résultats sur un dataset de test.

Si après optimisation sérieuse les résultats sont insuffisants ET que vous avez les données ET les ressources pour maintenir un modèle fine-tuné — alors seulement envisagez le fine-tuning.

Dans la majorité des projets que j’ai vus, on n’arrive jamais à cette étape parce qu’un bon prompt engineering suffit.

Stéphanie Caumont

Product Owner IA · En savoir plus