Comment évaluer un agent IA avant de le mettre en prod

12 mai 20258 min

La question que tout le monde évite jusqu’au dernier moment : comment savoir si votre agent IA est bon ? Pas bon dans le sens “il répond à mes questions”, mais bon dans le sens “je peux le mettre en production en confiance”.

Voici le framework que j’utilise.

Pourquoi l’évaluation est souvent bâclée

Dans la plupart des projets IA que j’ai vus, l’évaluation ressemble à ça : on teste manuellement quelques cas, ça semble marcher, on déploie. Et ensuite on découvre les problèmes en prod.

Le problème, c’est que les LLMs ont un comportement probabiliste. Un agent qui “marche” sur vos 5 cas de test peut échouer sur 20% des cas réels. Sans mesure systématique, vous ne le saurez qu’une fois en production.

Les 4 dimensions à évaluer

1. La précision fonctionnelle

Est-ce que l’agent fait ce qu’il est censé faire ?

Pour mesurer ça, il faut un dataset d’évaluation : au minimum 50 paires (input, output attendu). Pas des cas faciles que vous avez inventés — des cas réels, représentatifs de ce que vos utilisateurs vont envoyer, y compris les cas ambigus et les cas limites.

Score précision = (cas où l'output est correct) / (total des cas)

Un score acceptable dépend du contexte. Pour une classification d’emails : 90%+. Pour la rédaction d’un résumé : la mesure est plus subjective, mais elle doit exister.

2. La robustesse

Comment l’agent se comporte face aux inputs inattendus ?

Inputs malformés (texte tronqué, caractères spéciaux, langues mélangées)
Inputs hors périmètre (demandes que l’agent n’est pas censé traiter)
Inputs adversariaux (tentatives de faire dérailler l’agent)

Un agent robuste retourne une erreur propre ou escalade gracieusement. Un agent fragile hallucine ou fait n’importe quoi.

3. La cohérence

Est-ce que l’agent donne la même réponse à des inputs équivalents ?

Testez la même question reformulée 5 fois différemment. Si les réponses varient significativement, votre prompt système n’est pas assez précis.

4. La latence et le coût

Souvent oubliés dans l’évaluation fonctionnelle, mais critiques en prod.

Latence P50 et P95 (le P95 est souvent 3x le P50 — c’est ce que vos utilisateurs lents vont vivre)
Coût moyen par requête × volume estimé = budget mensuel

Le minimum viable d’évaluation

Si vous n’avez pas le temps de faire tout ça, voici ce qui est non-négociable avant une mise en prod :

50 cas de test représentatifs avec outputs attendus validés par un humain. Pas générés par l’IA elle-même.

Un test de régression automatisé : à chaque modification du prompt système, les 50 cas tournent automatiquement et vous alertent si le score baisse.

Des seuils explicites : “On déploie si et seulement si le score de précision est > X% et le taux d’erreur critique est < Y%.”

Ce que ça change en pratique

Avoir un système d’évaluation change profondément la façon de travailler sur un agent :

Vous pouvez itérer sur le prompt système avec confiance (vous mesurez l’impact de chaque changement)
Vous pouvez détecter les régressions avant qu’elles atteignent les utilisateurs
Vous pouvez avoir une conversation honnête avec les stakeholders sur ce que l’agent sait et ne sait pas faire

C’est le travail le plus ingrat du projet. C’est aussi le plus important.

Stéphanie Caumont

Product Owner IA · En savoir plus