La stack technique d'un Product Owner IA en 2025

2 juin 20258 min

On me demande souvent quels outils j’utilise au quotidien. Voici ma stack complète, avec les raisons derrière chaque choix.

Pour le travail avec les LLMs

Claude Code — Mon outil principal pour tout ce qui touche au code et à l’exploration de codebases. La qualité du suivi d’instructions et la fenêtre de contexte large en font mon premier choix.

Claude.ai — Pour les conversations longues, la rédaction de specs, les brainstormings. J’utilise les projets pour garder le contexte entre les sessions.

ChatGPT — Pour les tâches où j’ai besoin de générer des images (DALL-E), ou quand un client est dans l’écosystème OpenAI et que je dois tester dans leur environnement.

Mistral Le Chat — Pour les projets avec des contraintes de confidentialité données. Hébergement européen, utile pour certains clients.

Pour le prototypage d’agents

n8n (self-hosted) — Pour les workflows d’agents simples à modérer. Interface visuelle, intégrations prêtes à l’emploi, déploiement rapide. Idéal pour valider un cas d’usage avant de coder.

LangChain / LangGraph — Quand il faut des agents plus complexes avec de l’état et des boucles. Plus de code, plus de flexibilité.

Claude Code + MCP — Pour les prototypes qui doivent interagir avec des systèmes réels dès le départ. La combinaison la plus puissante que j’ai trouvée.

Pour la gestion de projet

Linear — Pour le suivi des tâches et des sprints. Interface claire, intégrations GitHub, notifications intelligentes.

Notion — Pour la documentation des agents : prompts systèmes, schémas de données, décisions d’architecture, résultats d’évaluations.

Loom — Pour partager des démos asynchrones avec les clients. Beaucoup plus efficace qu’une réunion pour montrer “comment l’agent se comporte dans ce cas”.

Pour l’évaluation

Braintrust — Plateforme d’évaluation de LLMs. Permet de définir des datasets de test, de faire tourner des évaluations automatisées, de comparer les versions de prompts.

Google Sheets — Pour les évaluations manuelles sur des petits datasets. Simple, partageable, suffisant pour 50-100 cas de test.

Pour rester à jour

Anthropic Discord — Les annonces de nouvelles fonctionnalités arrivent souvent là en premier. Communauté active de développeurs.

The Batch (Andrew Ng) — Newsletter hebdomadaire, bon signal/bruit sur les avancées importantes.

Twitter/X — Je suis une cinquantaine de chercheurs et practitioners. Beaucoup de bruit, mais les threads techniques valent souvent le coup.

Ce que j’ai arrêté d’utiliser

Les plateformes no-code IA grand public — Séduisantes au départ, mais les limites arrivent vite dès qu’on sort des cas d’usage simples.

Les wrappers LLM propriétaires — Plusieurs startups proposent leur “couche d’abstraction” au-dessus des LLMs. Dans la pratique, ça ajoute de la complexité et de la dépendance sans vraie valeur ajoutée pour la plupart des projets.

La règle que j’applique : si je peux faire la même chose directement avec l’API du LLM en 2 heures, je ne paie pas pour un wrapper.

Stéphanie Caumont

Product Owner IA · En savoir plus