Les chatbots IA ont perdu en performance par rapport à l'année dernière, à l'exception d'un modèle !

14 septembre 2025

L’essor rapide des chatbots d’intelligence artificielle change notre façon d’accéder aux informations. En quelques clics, ces assistants virtuels offrent des réponses instantanées, facilitant ainsi l’accès à la connaissance. Cependant, cette avancée technologique s’accompagne de défis importants, notamment en matière de véracité des informations diffusées. Dans un monde où la vitesse prime sur la précision, les chatbots, qui devraient être des alliés fiables, se retrouvent parfois à relayer des contenus trompeurs, contribuant à une vague de désinformation aux conséquences graves.

Cette situation soulève des questions essentielles sur la responsabilité des entreprises technologiques et sur l’impact de ces outils sur notre perception de la réalité. À l’instar des réseaux sociaux, souvent critiqués pour leur rôle dans la propagation de fausses nouvelles, les chatbots font face à des accusations similaires. En cherchant à fournir des informations en temps réel, ils deviennent vulnérables aux manipulations orchestrées par des groupes malveillants qui exploitent la confiance des utilisateurs.

Cette réalité est d’autant plus préoccupante lorsqu’on examine les implications politiques et sociétales de cette désinformation. En période électorale, par exemple, les conséquences peuvent être dévastatrices, influençant l’opinion publique et affectant le déroulement des processus démocratiques. Dans un contexte où la confiance envers les médias traditionnels est déjà fragile, la capacité des chatbots à véhiculer des informations erronées représente un enjeu crucial pour notre société. À l’aube d’une ère où l’intelligence artificielle joue un rôle de plus en plus dominant, il est primordial de questionner notre rapport à ces technologies et de prendre conscience des risques qu’elles impliquent.

L’impact des chatbots d’intelligence artificielle sur la désinformation

Les chatbots d’intelligence artificielle, qui étonnent par leur réalisme croissant, deviennent des acteurs majeurs dans la diffusion d’informations. Cependant, une réalité préoccupante se dessine: ces outils diffusent désormais deux fois plus de fausses informations qu’il y a un an. Un rapport récent met en lumière comment certains d’entre eux ont été utilisés comme relais involontaires de la propagande, notamment russe. Cet article examine les conclusions d’une étude approfondie sur les chatbots les plus populaires du marché.

L’augmentation de la désinformation par les chatbots

Statistiques alarmantes

Les données sont sans appel: les chatbots, tels que ChatGPT, Claude et d’autres, ont vu leur capacité à distinguer le vrai du faux se détériorer de manière significative. Les résultats d’une enquête menée par des experts en fiabilité des médias révèlent que ces outils, prisés par des millions d’utilisateurs, se laissent de plus en plus influencer par des informations erronées.

Changements dans la posture des chatbots

Il y a un an, les chatbots adoptaient une approche prudente face aux sujets sensibles. Lorsqu’ils étaient confrontés à des questions délicates sur les élections ou les conflits internationaux, ils préféraient souvent avouer leur ignorance plutôt que de propager des informations douteuses. Cependant, cette prudence a été remise en question par l’introduction de la recherche en temps réel. Désormais, ces systèmes ne reculent plus devant les questions d’actualité, aspirant à fournir des informations fraîches. Malheureusement, cela implique également qu’ils ingèrent des contenus trompeurs, alimentés par des groupes malveillants.

L’exploitation par les réseaux de désinformation

Identification des réseaux de désinformation

L’analyse a mis en lumière des réseaux sophistiqués de désinformation, tels que Storm-1516 et Pravda, qui opèrent depuis Moscou. Ces dispositifs redoutables produisent chaque année des millions d’articles factices, diffusés sur une centaine de sites qui imitent des médias légitimes. Leur objectif est de polluer les sources d’information utilisées par les intelligences artificielles pour générer leurs réponses.

Impact sur les élections

Ces manipulations prennent une ampleur encore plus inquiétante lors des périodes électorales. Par exemple, avant les élections parlementaires en Moldavie, des campagnes de déstabilisation ont été orchestrées contre Igor Grosu, une figure pro-européenne influente. Une fausse déclaration, prétendument prononcée par Grosu, le qualifiant de « troupeau de moutons », a été fabriquée, accompagnée d’un enregistrement audio fictif généré par intelligence artificielle. Six des dix chatbots testés ont relayé cette désinformation en la présentant comme une information vérifiée, citant des sites Pravda déguisés en médias roumains.

Classement de fiabilité des chatbots

Performances des principaux chatbots

Le classement de fiabilité établi met en lumière des résultats surprenants. Claude, le chatbot d’Anthropic, se distingue avec seulement 10 % de réponses comportant des fausses informations, une performance stable par rapport à l’année précédente. Gemini, développé par Google, suit avec 16,67 % de réponses erronées, contre 6,67 % l’année précédente. Grok et You.com affichent des résultats honorables avec 33,33 % de réponses fausses, tandis que d’autres concurrents montrent des performances médiocres.

Cas d’étude: l’effondrement de Perplexity

Perplexity, autrefois salué pour sa fiabilité, a connu un effondrement dramatique, atteignant un taux d’erreur de 46,67 %. Les utilisateurs, déçus par cette chute de performance, expriment leur souhait de comprendre les raisons de cette dégradation. En ce qui concerne ChatGPT, son taux d’erreur s’établit à 40 %, en hausse par rapport à l’année précédente, tandis que Mistral, le fer de lance français, stagne à 36,67 % d’erreurs, continuant néanmoins à puiser dans des sources liées aux réseaux Pravda, malgré des sanctions européennes.

Les chatbots d’intelligence artificielle, malgré leurs avancées technologiques remarquables, se trouvent au centre d’un paradoxe préoccupant. Bien qu’ils offrent un accès instantané à l’information et une assistance précieuse, leur tendance à diffuser des fausses informations soulève de sérieuses inquiétudes. La baisse de leur capacité à distinguer le vrai du faux met en évidence non seulement des défis techniques, mais également des enjeux éthiques importants liés à leur utilisation.

L’impact de cette désinformation va au-delà des utilisateurs individuels ; il touche également les sphères politiques et sociales, où la manipulation de l’information peut influencer des décisions cruciales et modifier la perception du public. En période électorale, ces enjeux prennent une dimension particulièrement aiguë, montrant comment des campagnes orchestrées peuvent déstabiliser des démocraties entières.

Face à cette réalité, il est impératif de réfléchir à la responsabilité des entreprises technologiques ainsi qu’à celle des utilisateurs. Quelles mesures peuvent être mises en place pour assurer que les innovations en matière d’intelligence artificielle servent une information fiable ? Quels dispositifs peuvent protéger les citoyens des effets néfastes de la désinformation ? En abordant ces questions, chacun a la possibilité de contribuer à une meilleure compréhension des défis contemporains liés à la technologie et à l’information, tout en s’engageant dans une réflexion plus large sur notre manière de consommer et de partager l’information à l’ère numérique.

Aller plus loin

Pour suivre rigoureusement la performance des modèles de chat, explorez HELM – Holistic Evaluation of Language Models (Stanford CRFM), un cadre et des tableaux de bord publics qui mesurent les modèles sur des scénarios variés (précision, robustesse, toxicité, etc.).

Obtenez une vue « terrain » avec LMSYS – Chatbot Arena, le classement Elo issu de millions de duels anonymisés entre modèles, utile pour observer les tendances et régressions perçues par les utilisateurs.

Pour comprendre la méthodologie de jugements humains multi-tours, lisez LMSYS – MT-Bench & mises à jour du leaderboard, qui détaille les jeux de tests conversationnels et leurs limites.

Côté open-source, consultez Hugging Face – Open LLM Leaderboard, qui agrège des scores sur des benchmarks clés (MMLU-Pro, GPQA, MATH, etc.) pour comparer rapidement les modèles publics.

Pour le benchmark académique de culture générale multi-domaines, référez-vous à MMLU (repo officiel), souvent utilisé pour détecter des variations de performance entre versions d’un même modèle.

Évaluez les assistants outillés (recherche, outils externes) via GAIA – General AI Assistant Leaderboard, qui mesure des tâches pratiques nécessitant plusieurs compétences.

Enfin, pour tester la robustesse hors benchmarks statiques, regardez Dynabench, une plateforme d’évaluations dynamiques « humain-dans-la-boucle » conçue pour débusquer les régressions et faiblesses réelles des modèles.