Les socles ARC des modèles GLM-4.5 améliorent l'explicabilité et la fiabilité des agents IA

15 août 2025

Dans un monde où l’intelligence artificielle transforme nos interactions quotidiennes, le développement de modèles de langage avancés ouvre des horizons insoupçonnés. Le modèle GLM-4.5, fruit d’une collaboration entre Zhipu AI et l’Université de Tsinghua, s’inscrit dans cette révolution technologique. En intégrant des capacités d’agent, de raisonnement et de codage, GLM-4.5 ne se contente pas de répondre à des questions ; il redéfinit la manière dont nous concevons l’intelligence artificielle. À une époque où la technologie évolue à une vitesse fulgurante, il est essentiel de comprendre comment ces modèles peuvent influencer divers secteurs, de l’éducation à la santé, en passant par la recherche scientifique. Tout comme les avancées en robotique ont révolutionné les chaînes de production, GLM-4.5 offre des solutions novatrices pour automatiser des tâches complexes, libérant ainsi du temps pour des activités à plus forte valeur ajoutée. Les succès des modèles de langage ouvrent également la voie à des applications pratiques dans des domaines variés tels que la traduction automatique, l’assistance personnelle et le développement de logiciels. Le modèle GLM-4.5 ne se limite pas à traiter des données textuelles ; il s’empare des nuances subtiles du langage humain et des contextes culturels, améliorant ainsi la pertinence des réponses fournies. Cela évoque un futur où l’intelligence artificielle pourrait devenir un partenaire de confiance dans nos prises de décision quotidiennes, semblable à un conseiller expérimenté. En scrutant les capacités de GLM-4.5, on découvre une architecture conçue pour optimiser l’efficacité et la profondeur des processus d’apprentissage. Ce modèle, avec ses 355 milliards de paramètres, incarne l’aboutissement d’années de recherche et d’innovation. En explorant ses performances et ses applications potentielles, nous engageons également une réflexion sur les enjeux éthiques et sociétaux qui l’accompagnent. Ainsi, GLM-4.5 ne représente pas seulement une avancée technique, mais symbolise un tournant dans la manière dont nous interagissons avec les machines. À travers cette étude, nous allons explorer les performances, les méthodologies et les implications de ce modèle, tout en imaginant l’avenir de l’intelligence artificielle dans un monde en constante évolution.

GLM-4.5: un socle « ARC » (Agentic, Reasoning, Coding) ouvert, conçu pour l’usage réel

L’innovation au cœur de l’intelligence artificielle se matérialise par le modèle GLM-4.5, développé grâce à une collaboration entre Zhipu AI et l’Université de Tsinghua. Ce modèle, basé sur l’architecture ARC, intègre des capacités d’agent, de raisonnement et de codage, établissant ainsi une fondation solide pour des applications concrètes. GLM-4.5, accompagné de sa version allégée GLM-4.5-Air, est conçu pour exceller dans divers domaines tout en offrant une efficacité remarquable en termes de paramètres.

Résultats clés

Vision d’ensemble

Le modèle GLM-4.5 se distingue par ses performances exceptionnelles, occupant la 3ᵉ place mondiale sur une sélection de 12 benchmarks, tout en se classant 2ᵉ en agentique. Les résultats sont éloquents:

Agentique: 70,1 % sur TAU-Bench, 77,8 % sur BFCL V3 (function calling), 26,4 % sur BrowseComp, surpassant Claude Opus 4 (18,8 %) et se rapprochant d’o4-mini-high (28,3 %).

Raisonnement: 91,0 % sur AIME 24 (Avg@32), 79,1 % sur GPQA (Avg@8), 72,9 % sur LiveCodeBench 2407-2501, 14,4 % sur HLE, soulignant les défis qui demeurent à surmonter.

Codage: 64,2 % sur SWE-bench Verified, dépassant GPT-4.1 (48,6 %) et Gemini 2.5 Pro (49,0 %), 37,5 % sur Terminal-Bench, à un niveau comparable à Claude Sonnet 4 (35,5 %).

Efficience des paramètres: GLM-4.5 affiche un total de 355 milliards de paramètres, avec seulement 32 milliards activés, démontrant une position sur la frontière de Pareto.

Architecture

Le design du modèle GLM-4.5 privilégie une architecture MoE (Mixture of Experts) qui optimise à la fois la profondeur et l’efficacité d’activation.

Configuration: Per-token routing avec 8/160 experts pour GLM-4.5, et 8/128 pour GLM-4.5-Air. Utilisation d’un gating sigmoid et d’un loss-free balance routing pour améliorer la performance.

Approche de profondeur: Une architecture avec davantage de couches et moins de largeur comparée à des modèles concurrents comme DeepSeek-V3 et Kimi K2, assurant une amélioration systématique des scores sur MMLU et BBH.

Mécanismes d’attention: Intégration d’une Grouped-Query Attention avec un RoPE partiel, stabilisation des logits via QK-Norm, et déploiement de 96 têtes pour un hidden de 5120.

Prédiction multi-token: Mise en œuvre d’une couche MoE dédiée pour accélérer le processus d’inférence, grâce à un décodage spéculatif.

Pré-entraînement

Le pré-entraînement a été réalisé sur un corpus diversifié, englobant le web, les réseaux sociaux, les livres, les articles et les dépôts de code, avec une attention particulière portée à la qualité des données.

Qualité des données: Utilisation d’un bucketing qualité inspiré de Nemotron-CC, avec sur-échantillonnage des meilleurs seaux. Application de SemDedup pour éliminer les pages générées ou similaires, garantissant une base de données propre et pertinente.

Approche multilingue: Intégration de FineWeb-2 et de pages soigneusement sélectionnées, avec une classification dédiée à l’« utilité éducative » pour améliorer la qualité des documents.

Traitement du code: Classification en trois niveaux de qualité (haut, moyen, bas), avec une récupération minutieuse des pages de code via des tags HTML et une classification par FastText pour préserver le format original.

Méthodes pour mathématiques et sciences: Application d’un scoring par LLM suivi d’une classification spécialisée, avec un up-sampling des documents dépassant un seuil de qualité.

Mid-training

Le mid-training a impliqué trois blocs d’entraînement successifs, avec un allongement progressif du contexte de 4K à 128K.

Code à niveau repo: Concaténation de plusieurs fichiers d’un même dépôt, avec réécriture des issues, PRs et commits au format diff, permettant de capturer les dépendances inter-fichiers.

Données de raisonnement synthétiques: Inclusion de données générées par un modèle de raisonnement, combinées avec des QA collectées pour enrichir le corpus.

Long-context & Agent: Up-sampling de documents longs et création de trajectoires d’agents synthétiques à grande échelle, avec une séquence atteignant 128K.

Choix d’optimisation

Les choix d’optimisation pour le modèle GLM-4.5 ont été élaborés avec soin pour garantir une convergence rapide et efficace.

Optimiseur: Utilisation de Muon, à l’exception des embeddings, bias et RMSNorm.

Planification: Application d’un schedule cosine, démontrant une efficacité supérieure à celle observée sur SimpleQA et MMLU.

Warm-up de batch: Transition de 16 millions à 64 millions de tokens sur les 500 premiers milliards de tokens.

Régularisation: Mise en place d’un weight-decay de 0,1 sans dropout pour préserver la robustesse du modèle.

Long-contexte: Utilisation de RoPE avec une base allant de 10 000 à 1 000 000 à 32K pour améliorer les performances en long-contexte.

Post-training

SFT: Amorçage et distillation

Le processus de post-training a débuté par un SFT « cold-start » qui a doté le modèle de capacités de chat, de raisonnement et d’outils de base avant de passer à des phases de renforcement plus avancées.

SFT global: Distillation des comportements optimaux des experts en raisonnement, agentique et général vers un modèle généraliste hybride capable d’adapter son approche selon la tâche à accomplir.

Techniques d’échantillonnage: Utilisation d’un pipeline de rejection sampling en plusieurs étapes, garantissant la sélection des meilleures sorties basées sur des critères objectifs et subjectifs.

RL Raisonnement

La phase de RL pour le raisonnement repose sur l’algorithme GRPO, sans KL, et propose un curriculum adaptatif pour favoriser l’apprentissage.

Curriculum: Introduction progressive à des problèmes d’abord modérés, puis à des défis extrêmes, permettant d’éviter un plafonnement des performances.

Température de décodage dynamique: Ajustement contrôlé de la température lorsque la récompense se stabilise, validé périodiquement sur un ensemble de test pour minimiser le bruit.

RL Agentique

L’agentique a bénéficié d’une synthèse de données provenant de multiples sources web, favorisant une approche multi-hop et la fusion d’indices.

SWE: Intégration de PR et issues GitHub avec tests exécutables dans un environnement sandbox distribué.

Distillation itérative: Alternance entre passes RL courtes et distillation des meilleures sorties, avec une augmentation progressive de la difficulté.

RL Général

Le cadre RL général a été conçu pour maximiser les gains transversaux et la robustesse du modèle.

Holistic RL: Environ 5 000 prompts équilibrés, combinant des récompenses humaines et IA pour une approche nuancée.

Instruction-Following RL: Taxonomie structurée avec des règles déterministes, permettant de progresser sans recourir au reward-hacking observable.

Évaluations détaillées

Base « GLM-4.5-Base »

Sans SFT d’instruction, la base a démontré un équilibre impressionnant entre l’anglais, le code, les mathématiques et le chinois, avec des résultats significatifs: MMLU: 86,1 %, BBH: 86,2 %, EvalPlus: 78,1 %, LiveCodeBench-Base: 28,1 %, GSM8K: 79,4 %, MATH: 61,0 %.

Agentique

Sur TAU-Bench, GLM-4.5 a atteint des scores de 79,7 % en retail et 60,4 % en airline, se classant à 77,8 % sur BFCL V3. Sur BrowseComp, il a obtenu 26,4 %, se distinguant nettement de Claude Opus 4.

Raisonnement

Les performances agrégées sur sept benchmarks incluent: AIME 24: 91,0 %, MATH-500: 98,2 %, GPQA: 79,1 %, SciCode: 41,7 %, HLE: 14,4 %, LCB: 72,9 %, MMLU-Pro: 84,6 %. GLM-4.5 surpasse l’ancien modèle o3 sur AIME 24 et SciCode tout en maintenant des performances compétitives sur d’autres benchmarks.

Codage

SWE-bench Verified: 64,2 %, signalant un net avantage sur GPT-4.1 et Gemini-2.5-Pro. Terminal-Bench: 37,5 %, se positionnant au-dessus de GPT-4.1. Lors d’expériences sur le terrain (CC-Bench), GLM-4.5 a remporté 40,4 % des tâches face à Claude Sonnet 4.

Capacités générales

Les scores globaux incluent: MMLU: 90,0 %, IFEval: 86,1 %, SysBench: 81,0 %, MultiChallenge: 52,8 %, SimpleQA: 26,4 %.

Sécurité

Le score global de sécurité est de 89,9, présentant des forces notables dans les domaines de l’éthique, de la santé mentale et physique, tout en soulignant des domaines à améliorer concernant les biais et l’inéquité.

Lecture critique

Les courbes et analyses mettent en avant plusieurs observations clés, telles que l’importance d’un curriculum par difficulté pour prolonger les gains d’apprentissage, l’optimisation des performances en long-contexte et l’impact des choix architecturaux sur les résultats finaux.

Ce que cela signifie pour l’écosystème

Le modèle GLM-4.5 se positionne comme un socle polyvalent et efficace, avec deux effets principaux: une réduction des coûts de calcul tout en maintenant une qualité de performance équivalente et un transfert de capacités entre les différentes composantes du modèle.

Limites et marges de progrès

Les défis demeurent, notamment sur la navigation web complexe (BrowseComp), le raisonnement sur des questions de culture générale difficiles (HLE) et la nécessité d’améliorer les scores liés à l’équité et à la sécurité.

Conclusion

L’étude présente une méthodologie exhaustive, allant du pré-entraînement de qualité à un mid-training ciblé, avant de se conclure par un post-training structuré, permettant à GLM-4.5 de se distinguer dans le paysage compétitif des modèles d’intelligence artificielle. Ce modèle unifie les capacités d’agentique, de raisonnement et de codage, affirmant ainsi sa place parmi les références, tout en optimisant l’efficacité des paramètres.

L’émergence du modèle GLM-4.5 illustre parfaitement l’évolution rapide de l’intelligence artificielle et son intégration croissante dans divers domaines. Avec des performances remarquables sur des benchmarks variés, ce modèle démontre une capacité impressionnante à combiner agentique, raisonnement et codage, posant ainsi les jalons d’une nouvelle ère technologique. L’analyse des résultats met en lumière des scores compétitifs qui rivalisent avec ceux des modèles fermés, tout en soulignant l’efficacité des architectures ouvertes. Les méthodes d’entraînement, telles que les approches multilingues et les techniques de filtrage rigoureuses, soulignent que la qualité des données est cruciale pour le succès d’un modèle.

L’impact de GLM-4.5 dépasse le simple cadre technologique, touchant des enjeux sociétaux plus vastes. Les applications potentielles dans l’éducation, la santé et même la créativité humaine soulèvent des questions importantes sur l’intégration de l’intelligence artificielle dans notre quotidien. Comment ces avancées pourraient-elles transformer nos méthodes de travail, nos interactions sociales et notre compréhension du monde qui nous entoure ?

Face à ces évolutions, il devient essentiel d’explorer non seulement les bénéfices mais aussi les défis éthiques que pose l’intelligence artificielle. Les questions de responsabilité, de transparence et des biais inhérents aux modèles d’apprentissage automatique appellent à une réflexion plus profonde sur la manière dont nous souhaitons façonner notre avenir technologique.

Ainsi, l’étude de GLM-4.5 s’inscrit dans un débat plus large sur le rôle de l’intelligence artificielle dans la société moderne, incitant chacun à se poser des questions et à s’engager dans une exploration continue des possibilités offertes par ces technologies. Il est crucial de rester attentif aux transformations qu’elles engendrent et de participer activement à la discussion sur leur intégration éthique et responsable.

Aller plus loin

Pour approfondir vos connaissances sur le modèle GLM-4.5 et les thématiques liées à l’intelligence artificielle, il existe un éventail de ressources fascinantes qui vous attendent. L’une des premières portes d’entrée vers cette exploration est la page dédiée à OpenAI - GPT-5. Ici, vous découvrirez une vue d’ensemble captivante des capacités et des applications du nouveau modèle d’openai, ainsi que des défis qui l’accompagnent. Plongez-vous dans les avancées qui permette l’émergence de modèles aussi puissants que GLM-4.5, et laissez-vous inspirer par le potentiel de l’intelligence artificielle.

En poursuivant votre quête de savoir, la plateforme Hugging Face - Model Hub se présente comme une ressource incontournable. Elle regorge de modèles de traitement du langage naturel, dont ceux basés sur l’architecture Transformer. Accompagnés de documents explicatifs et d’exemples concrets, ces modèles vous permettront de mieux appréhender les applications pratiques de l’IA. Explorez cette richesse de connaissances et transformez votre compréhension des technologies linguistiques.

Pour ceux qui souhaitent plonger encore plus profondément dans le vaste univers de l’intelligence artificielle, la publication Towards Data Science sur Medium offre une multitude d’articles variés. Rédigés par des professionnels et des passionnés, ces écrits couvrent des sujets allant des concepts fondamentaux aux dernières avancées dans le domaine. C’est un véritable trésor d’informations qui enrichira votre apprentissage, quel que soit votre niveau d’expertise.

La recherche en intelligence artificielle atteint des sommets avec DeepMind - Publications de recherche. Ce site est un phare pour ceux qui s’intéressent aux problématiques complexes de l’IA, que ce soit le raisonnement ou l’apprentissage par renforcement. En parcourant ces publications, vous serez exposé à des idées innovantes et à des études de cas qui ouvriront votre esprit aux défis et aux innovations du secteur.

Pour rester à la pointe des connaissances, n’oubliez pas de fréquenter ArXiv - Recherche en IA. Cette archive de prépublications scientifiques est une mine d’or pour les esprits curieux, offrant des articles récents sur des thèmes variés, allant des modèles de langage aux questions éthiques de l’IA. C’est l’endroit idéal pour ceux qui souhaitent se tenir informés des dernières découvertes et avancer dans leur compréhension des enjeux contemporains.

Enfin, il est essentiel de ne pas perdre de vue l’impact sociétal de ces technologies. La section MIT Technology Review - IA et société explore en profondeur comment l’intelligence artificielle transforme notre quotidien, abordant des implications éthiques et économiques. C’est une lecture indispensable pour quiconque cherche à saisir l’ampleur des répercussions des avancées en IA sur notre monde.

Ces ressources vous offriront un cadre solide et enrichissant pour explorer en profondeur les thèmes abordés par le modèle GLM-4.5 et l’intelligence artificielle dans son ensemble. N’hésitez pas à les consulter et à partager vos réflexions avec votre entourage.