Cómo evaluar un agente de IA antes de ponerlo en producción
La pregunta que todos evitan hasta el último momento: ¿cómo saber si tu agente de IA es bueno?
Por qué la evaluación suele ser apresurada
Los LLMs tienen comportamiento probabilístico. Un agente que “funciona” en tus 5 casos de prueba puede fallar en el 20% de los casos reales.
Las 4 dimensiones a evaluar
1. Precisión funcional — ¿Hace el agente lo que se supone que debe hacer? Necesitas un dataset de evaluación: mínimo 50 pares (input, output esperado) de casos reales.
2. Robustez — ¿Cómo se comporta ante inputs inesperados? Inputs malformados, fuera de ámbito, adversariales.
3. Consistencia — ¿Da el agente la misma respuesta a inputs equivalentes? Prueba la misma pregunta reformulada 5 veces.
4. Latencia y coste — P50 y P95 de latencia, coste medio por petición × volumen estimado.
El mínimo viable de evaluación
- 50 casos de prueba representativos validados por un humano
- Una prueba de regresión automatizada
- Umbrales explícitos de despliegue
Lo que cambia en la práctica
Tener un sistema de evaluación cambia profundamente la forma de trabajar: iteras con confianza, detectas regresiones antes de que lleguen a usuarios, y tienes conversaciones honestas con stakeholders.
Stéphanie Caumont
Product Owner de IA · Saber más