Your AI is a dog...

J'utilise des agents IA tous les jours. Pour cadrer un développement produit, pour challenger une reflexion ou pour pousser un raisonnement quand je tourne en rond sur un arbitrage. Et plus j'en use, plus c’est frappant : les agents IA ne me contredisent à peu près jamais.

Au début, j'ai pris ça pour une qualité. Un outil docile, productif, qui exécute. Puis j'ai commencé à m'en méfier. Un agent qui ne contredit jamais n'est pas un collaborateur. C'est autre chose, et il faut essayer de le nommer.

Naval Ravikant le formule sèchement dans son podcast récent sur le vibe coding : « You'd have to be pretty wrong for them to contradict you. » Il faudrait que vous ayez vraiment tort pour qu'ils vous contredisent.

Naval observe ce comportement chez quelqu'un qui code. Le mécanisme dépasse largement le code à mon sens.

What’s the hack ?

Ce comportement n'est pas une faiblesse de la génération LLM. Il est inscrit dans la façon dont ces modèles sont fabriqués. Et il a un nom : la sycophantie. Le terme désigne la tendance d'un modèle à confirmer ce que dit l'utilisateur plutôt qu'à le contredire, même quand ce qu'il dit est faux.

Les modèles de langage actuels sont entraînés en deux temps : un pré-entraînement sur de vastes corpus textuels, puis un alignement par notations humaines. C'est ce second temps, le RLHF (Reinforcement Learning from Human Feedback), qui apprend au modèle à produire ce qui plaira aux évaluateurs.

Le problème commence là. Les humains, en moyenne, préfèrent les réponses qui confortent leurs vues (le fameux biais de confirmation), même quand ces vues sont fausses. Le modèle apprend donc à les conforter. Une équipe d'Anthropic a documenté ce mécanisme dès 2023 sur cinq assistants de pointe couvrant les principaux éditeurs (Anthropic, OpenAI, Meta). Les modèles admettaient des erreurs qu'ils n'avaient pas commises, donnaient des évaluations biaisées, reproduisaient les fautes formulées avec assurance. Conclusion des chercheurs : la sycophantie est un comportement général des modèles RLHF, et elle s'aggrave avec la taille du modèle.

Naval donne une scène de ce mécanisme en action :

« I'll stop the model and I'll say, “No, no, that's a hack.” And what's funny is the model will always say, “You're right, that was a hack.” Even if that wasn't a hack, the model will say, “You're right, that was a hack.“ »

Le modèle ne vérifie pas. Il acquiesce.

Demander un avis à un agent IA ne produit donc pas une évaluation indépendante. Cela produit une projection optimisée des prémisses qu'on a posées dans la question. C'est le prolongement direct de ce que j'avais commencé à décrire dans cet article sur OpenClaw : le système amplifie ce qu'il rencontre, sans erreur visible.

On est presque tous passé par là. Si un agent IA est sycophant, mobilisons-en plusieurs. Trois modèles différents, ou dix instances du même, et on retrouve une forme de débat. C'est une intuition raisonnable. Elle est fausse.

Une étude publiée à ICML 2025 a mesuré le taux d'accord entre 349 modèles sur plus de 12 000 questions. Quand deux modèles se trompent, ils donnent la même mauvaise réponse 60% du temps. Plus les modèles sont gros et précis, plus leurs erreurs convergent. Une autre étude, parue en avril 2026, a mesuré la similarité des chaînes de raisonnement entre trois agents construits sur le même modèle : 0,888 sur 1. Les chercheurs nomment ce phénomène representational collapse.

Trois agents qui débattent ne produisent pas trois perspectives. Ils produisent un seul point de vue répété trois fois, avec une variance superficielle qui simule le désaccord. Le bruit corrélé n'est pas du débat.

Le théâtre sycophant

C'est ici que la métaphore de Naval prend son poids. Un agent IA est un chien de chasse remarquable. Il rapporte vite, il rapporte bien, il rapporte ce qu'on lui désigne. Mais c'est un chien. Si on pointe le mauvais oiseau, il abat le mauvais oiseau. Il ne sait pas distinguer le canard du pigeon, et il n'a aucune raison de douter de l'intention du chasseur. C'est exactement le contraire de qui tient tête, dont la fonction est de demander si on vise le bon oiseau.

Cette mécanique a été repérée jusque dans le droit. Le règlement européen sur l'intelligence artificielle, dans son article 14, impose aux opérateurs humains de systèmes à haut risque de « rester conscients de la possible tendance à se fier automatiquement ou à se reposer trop fortement sur les sorties produites ». Il nomme cela automation bias. La formulation est juridique, le mécanisme est exactement celui qui précède : un système qui ne contredit jamais devient progressivement la voix de l'opérateur, pas un appui externe.

L'agent IA produit de la vitesse d'exécution. Pas de la qualité d'arbitrage. Confondre les deux, c'est empiler des décisions qu'aucun système n'a été en position de contester. La fonction de contradiction reste structurellement humaine. Pas par nostalgie, par contrainte technique : tant que la diversité cognitive dépend de l'asymétrie des données d'entraînement, et c'est le cas, multiplier les agents n'est pas multiplier les points de vue. C'est multiplier le coût en jetons.

J’ai tenté cette parade comme beaucoup, une consigne devenue rituelle dans mes usages : « Be contrarian. Challenge my assumptions. » Le modèle obtempère. Il argumente contre la point de vue, soulève des objections, tient un rôle. Mais c'est précisément un rôle. L'agent contredit parce qu'on le lui demande, pas parce qu'il pense différemment. C'est du théâtre, et du théâtre sycophant : le modèle joue le contradicteur pour plaire à l'opérateur qui veut être contredit. La structure du miroir reste intacte, on a juste demandé au reflet de froncer les sourcils.

Je continue à utiliser ces outils tous les jours. Je leur fais confiance pour exécuter, pour synthétiser, pour formaliser. Pas pour me tenir tête. Quand je veux qu'on me contredise vraiment, je vais voir quelqu'un dont les biais ne sont pas corrélés aux miens. C'est plus lent. C'est plus coûteux. C'est aussi la seule chose qui marche.

What’s the hack ?

Le théâtre sycophant

À lire aussi

Openclaw AKM: l'outil qui pense avec moi me réapprend à penser

What’s the hack ?

Le théâtre sycophant

Rejoignez les lecteurs.

À lire aussi

Openclaw AKM: l'outil qui pense avec moi me réapprend à penser