Dans le monde numérique d’aujourd’hui, l’intelligence artificielle et l’apprentissage automatique changent notre approche des problèmes. Le domaine du raisonnement mathématique, en particulier, se distingue par son potentiel encore inexploité. Bien que les modèles de langage aient fait des avancées impressionnantes, leur aptitude à résoudre des problèmes mathématiques complexes demeure un défi. Dans ce contexte, le développement de modèles de langage de petite taille, tels que rStar-Math, ouvre de nouvelles perspectives, non seulement pour les mathématiques, mais aussi pour d’autres disciplines où la logique et la rigueur sont essentielles. Des études antérieures ont révélé que les grands modèles de langage, souvent considérés comme les leaders incontestés dans le domaine de l’IA, peuvent parfois souffrir de leur propre complexité. La tendance à fournir des solutions rapides peut entraîner des erreurs, comparables aux raccourcis mentaux que l’on observe dans le raisonnement humain. Cette comparaison avec la psychologie cognitive met en lumière l’importance d’une réflexion approfondie, semblable à celle que l’on retrouve dans des domaines tels que la philosophie ou la science, où chaque étape du raisonnement mérite une attention particulière. Le passage d’une génération de réponses instantanées à une méthode de raisonnement itératif et réfléchi offre ainsi un potentiel d’amélioration significatif. L’impact de cette évolution va au-delà des murs académiques. Dans le milieu professionnel, les applications du raisonnement mathématique sont omniprésentes, allant de la finance à l’ingénierie, en passant par l’analyse de données. La capacité d’un modèle de langage à maîtriser les subtilités des mathématiques pourrait transformer des secteurs entiers, permettant aux entreprises de prendre des décisions plus éclairées et fondées sur des analyses précises. Par ailleurs, l’intégration de mécanismes d’auto-évolution permettrait à ces modèles de s’adapter en permanence aux défis émergents, renforçant leur pertinence et leur efficacité. En explorant le raisonnement mathématique à travers rStar-Math, nous ne franchissons pas seulement une nouvelle étape dans le développement des modèles de langage. Nous entrons dans une ère où la collaboration entre l’intelligence artificielle et les capacités humaines pourrait donner naissance à des solutions innovantes aux problèmes les plus complexes de notre époque, tout en soulevant des questions éthiques et pratiques sur l’avenir du raisonnement dans un monde de plus en plus automatisé.

Le raisonnement mathématique grâce à une réflexion profonde auto-évolutive

Des recherches récentes ont montré que les grands modèles de langage (LLMs) peuvent traiter des problèmes mathématiques complexes. Cependant, les approches conventionnelles, qui demandent aux LLMs de générer des solutions complètes en une seule inférence, ressemblent à une pensée de type système 1 et aboutissent souvent à des résultats rapides mais erronés. En réponse à cette problématique, une nouvelle approche de calcul à l’heure de test a été proposée, suggérant un changement de paradigme vers une pensée de type système 2, imitant le raisonnement humain à travers un processus de réflexion plus lent et approfondi. Dans ce cadre, un LLM agit comme modèle de politique pour générer plusieurs étapes de raisonnement mathématique, qui sont ensuite évaluées par un autre LLM agissant comme modèle de récompense. Les étapes et solutions jugées les plus probables d’être correctes sont sélectionnées. Ce processus se répète de manière itérative pour aboutir à une réponse finale.

L’enjeu principal est de former un modèle de politique puissant capable de générer des étapes de solution prometteuses, ainsi qu’un modèle de récompense fiable pour les évaluer, ce qui dépend tous deux de données d’entraînement de haute qualité. Malheureusement, il est bien connu que les données de raisonnement mathématique de haute qualité sont rares et que la synthèse de données de qualité présente des défis fondamentaux. Pour le modèle de politique, il est complexe de distinguer les étapes de raisonnement erronées des correctes, rendant difficile l’élimination des données de faible qualité. Il est important de noter que dans le raisonnement mathématique, une réponse finale correcte ne garantit pas la validité de l’ensemble de la trace de raisonnement, des étapes intermédiaires incorrectes diminuant considérablement la qualité des données. En ce qui concerne le modèle de récompense, la modélisation de la récompense de processus (PRM) montre un grand potentiel en fournissant des retours détaillés sur les étapes intermédiaires. Cependant, les données d’entraînement précises sont encore plus rares à cet égard: un retour d’information précis étape par étape nécessite d’importants efforts de labellisation humaine et n’est pas réalisable à grande échelle, tandis que les tentatives d’annotation automatique montrent des gains limités en raison de scores de récompense bruyants. En raison de ces défis, les approches de synthèse de données basées sur la distillation existantes ne parviennent pas à dépasser les capacités de leur modèle enseignant, tandis qu’à l’heure actuelle, la formation de PRMs fiables pour le raisonnement mathématique reste une question ouverte.

Dans ce travail, est présenté rStar-Math, une approche de raisonnement de type système 2 auto-évolutive qui atteint des performances de raisonnement mathématique à la pointe de la technologie, rivalisant et parfois surpassant OpenAI O1 sur des benchmarks mathématiques difficiles, le tout avec un modèle de taille aussi petite que 7 milliards de paramètres. Contrairement aux solutions qui s’appuient sur des LLMs supérieurs pour la synthèse de données, rStar-Math exploite des modèles de langage plus petits (SLMs) avec MCTS pour établir un processus d’auto-évolution, générant de manière itérative des données d’entraînement de meilleure qualité. Pour parvenir à l’auto-évolution, rStar-Math introduit trois innovations clés.

Tout d’abord, une méthode de synthèse de données augmentées par code, qui effectue des rollouts MCTS extensifs pour générer des trajectoires de raisonnement vérifiées étape par étape avec des valeurs Q auto-annotées issues des MCTS. Plus précisément, la résolution de problèmes mathématiques est décomposée en génération multi-étapes au sein de MCTS. À chaque étape, le SLM servant de modèle de politique échantillonne des nœuds candidats, chacun générant une étape de raisonnement ainsi que le code Python correspondant. Pour vérifier la qualité de la génération, seuls les nœuds avec une exécution réussie du code Python sont retenus, atténuant ainsi les erreurs dans les étapes intermédiaires. De plus, des rollouts MCTS extensifs assignent automatiquement une valeur Q à chaque étape intermédiaire en fonction de sa contribution: les étapes contribuant à des trajectoires menant à la bonne réponse obtiennent des valeurs Q plus élevées et sont considérées comme de meilleure qualité. Cela garantit que les trajectoires de raisonnement générées par les SLMs consistent en des étapes intermédiaires correctes et de haute qualité.

Deuxièmement, une méthode novatrice qui forme un SLM agissant comme un modèle de préférence de processus (PPM) pour implémenter le PRM désiré, prédisant de manière fiable une étiquette de récompense pour chaque étape de raisonnement mathématique. Le PPM tire parti du fait que, bien que les valeurs Q ne soient toujours pas assez précises pour évaluer chaque étape de raisonnement malgré l’utilisation de rollouts MCTS étendus, les valeurs Q peuvent distinguer de manière fiable les étapes positives (correctes) des étapes négatives (incorrectes ou non pertinentes). Ainsi, la méthode de formation construit des paires de préférence pour chaque étape sur la base des valeurs Q et utilise une perte de classement par paires pour optimiser la prédiction de score du PPM pour chaque étape de raisonnement, obtenant ainsi un étiquetage fiable. Cette approche évite les méthodes conventionnelles qui utilisent directement les valeurs Q comme étiquettes de récompense, qui sont intrinsèquement bruyantes et peu précises dans l’attribution de récompenses étape par étape.

Enfin, une recette d’auto-évolution en quatre rondes qui construit progressivement à la fois un modèle de politique avancé et un PPM à partir de zéro. Ça commence par constituer un ensemble de données de 747 000 problèmes mathématiques à partir de sources publiques. À chaque ronde, il est utilisé le dernier modèle de politique et le PPM pour effectuer des MCTS, générant des données d’entraînement de plus en plus de haute qualité grâce aux deux méthodes ci-dessus pour former un modèle de politique et un PPM plus robustes pour la ronde suivante. Chaque ronde atteint un raffinement progressif: (1) un SLM de politique plus performant, (2) un PPM plus fiable, (3) la génération de meilleures trajectoires de raisonnement par le biais de MCTS augmenté par le PPM, et (4) l’amélioration de la couverture des données d’entraînement pour aborder des problèmes mathématiques plus difficiles, y compris ceux de niveau compétition.

Des expérimentations approfondies à travers quatre SLMs (1,5b-7b) et sept tâches de raisonnement mathématique démontrent l’efficacité de rStar-Math. De manière remarquable, rStar-Math améliore tous les SLMs, atteignant ou surpassant OpenAI O1 sur des benchmarks mathématiques difficiles. Sur le benchmark mathématique, avec 8 trajectoires de recherche, rStar-Math propulse le qwen2.5-math-7b de 58,8 % à 89,4 % et le qwen2.5-math-1.5b de 51,2 % à 87,8 %. Avec 64 trajectoires, les scores s’élèvent à 90 % et 88,4 %, surpassant O1-preview de 4,5 % et 2,6 % et égalant le score de 90 % d’O1-mini. Lors de l’AIME 2024 au niveau olympique, rStar-Math résout en moyenne 53,3 % (8/15) des problèmes, dépassant O1-preview de 8,7 % ainsi que tous les autres LLMs open source. Il a été également réalisé des expériences complètes pour vérifier la supériorité des trajectoires de raisonnement vérifiées étape par étape par rapport aux meilleures lignes de base en matière de synthèse de données, ainsi que l’efficacité du PPM par rapport aux modèles de récompense basés sur les résultats et aux PRM basés sur les valeurs Q. Enfin, nous est présenté des découvertes clés issues de la réflexion profonde de rStar-Math, y compris la capacité d’auto-réflexion intrinsèque et la préférence du PPM pour les étapes intermédiaires d’application de théorèmes.

Travaux Connus

Les avancées dans le raisonnement mathématique des LLMs ont largement reposé sur la constitution de données de qualité à forte valeur ajoutée, la plupart des approches de pointe étant basées sur la distillation de GPT, utilisant des modèles avant-gardistes tels que GPT-4 pour la synthèse. Des travaux notables incluent numinamath et metamath. Bien que ces méthodes soient efficaces, elles limitent le raisonnement aux capacités du LLM enseignant. Les problèmes difficiles que le LLM enseignant ne peut pas résoudre sont exclus de l’ensemble d’entraînement. Même les problèmes solvables peuvent contenir des étapes intermédiaires sujettes à erreurs, difficiles à détecter. Bien que les méthodes d’échantillonnage par rejet puissent améliorer la qualité des données, elles ne garantissent pas des étapes intermédiaires correctes. En conséquence, l’augmentation des données de COT a des rendements décroissants, des gains atteignant une saturation, par exemple, openmathinstruct-2 n’enregistrant qu’une amélioration de 3,9 % en mathématiques malgré une augmentation de 8 fois de la taille de l’ensemble de données.

L’augmentation du calcul à l’heure de test a introduit de nouvelles lois d’échelle, permettant aux LLMs d’améliorer leur performance en générant plusieurs échantillons et en utilisant des modèles de récompense pour la sélection de la meilleure solution. Diverses méthodes de recherche à l’heure de test ont été proposées, notamment l’échantillonnage aléatoire et les méthodes de recherche en arbre comme MCTS. Cependant, les méthodes open source pour augmenter le calcul à l’heure de test ont montré des gains limités en raisonnement mathématique, souvent en raison des limitations du LLM de politique ou du modèle de récompense. rStar-Math s’attaque à ce problème en faisant évoluer de manière itérative le LLM de politique et le modèle de récompense, atteignant des performances de raisonnement mathématique de type système 2 comparables à celles d’OpenAI O1.

Les modèles de récompense sont cruciaux pour un raisonnement de type système 2 efficace, mais leur obtention est difficile. Des travaux récents incluent l’utilisation des LLMs comme juges pour la vérification et des modèles de récompense spécialisés tels que les modèles de récompense basés sur les résultats et les modèles de récompense de processus. Bien que les PRMs offrent des signaux de récompense denses et détaillés pour un raisonnement complexe, la collecte d’annotations au niveau des étapes reste un obstacle majeur. Alors que certaines approches s’appuient sur des ensembles de données annotés par des humains, d’autres explorent l’annotation automatique via l’échantillonnage Monte Carlo ou MCTS, mais peinent à générer des scores de récompense précis, limitant ainsi les gains de performance. rStar-Math introduit un modèle de récompense de préférence de processus qui élimine le besoin d’annotations précises des scores de récompense au niveau des étapes.

Méthodologie

MCTS pour un Raisonnement Efficace de Type Système 2

Ils visent à entraîner un SLM de politique mathématique et un modèle de récompense de processus (PRM), intégrant les deux au sein d’une recherche en arbre de Monte Carlo (MCTS) pour une réflexion profonde de type système 2. Le choix de MCTS repose sur deux raisons principales. Premièrement, il décompose des problèmes mathématiques complexes en tâches de génération de solutions simples à une seule étape, réduisant ainsi la difficulté pour le SLM de politique par rapport à d’autres méthodes de type système 2. Deuxièmement, la génération étape par étape dans MCTS fournit naturellement des données d’entraînement au niveau des étapes pour les deux modèles. Les rollouts MCTS standard attribuent automatiquement une valeur Q à chaque étape en fonction de sa contribution à la réponse finale correcte, éliminant ainsi le besoin d’annotations générées par des humains pour la formation du modèle de récompense de processus.

Idéalement, des LLMs avancés tels que GPT-4 pourraient être intégrés dans MCTS pour générer des données d’entraînement. Cependant, cette approche fait face à deux défis clés. Tout d’abord, même ces modèles puissants peinent à résoudre de manière cohérente des problèmes difficiles, comme ceux de niveau olympique. Par conséquent, les données d’entraînement résultantes seraient principalement constituées de problèmes plus simples, limitant leur diversité et leur qualité. Deuxièmement, l’annotation des valeurs Q étape par étape nécessite des rollouts MCTS extensifs ; une exploration insuffisante de l’arbre peut mener à des assignations de valeurs Q erronées. Étant donné que chaque rollout implique plusieurs générations à une seule étape et que ces modèles sont coûteux en termes de calcul, augmenter le nombre de rollouts entraîne des coûts d’inférence significatifs.

Méthode de Synthèse de Trajectoires Vérifiées Étape par Étape

Pour atténuer les erreurs et les étapes intermédiaires de faible qualité, ils introduisent une méthode de synthèse de données augmentées par code, qui effectue des rollouts MCTS extensifs pour générer des trajectoires de raisonnement vérifiées étape par étape, annotées avec des valeurs Q. Pour ce faire, ils commencent par un problème donné et un modèle de politique, exécutent le MCTS standard pour construire progressivement un arbre de recherche pour l’exploration des solutions étape par étape. À chaque étape, ils collectent la trajectoire de raisonnement actuelle et demandons au modèle de politique de générer plusieurs candidats pour cette étape. L’exécution de code Python est ensuite utilisée pour filtrer les nœuds valides. Seules les générations avec une exécution réussie de code sont retenues comme candidats valides et notées par le PPM, qui attribue une valeur Q à chaque étape.

Annotation Guidée par le Terminal

Au cours des deux premières rondes, lorsque le PPM est indisponible ou insuffisamment précis, une annotation guidée par le terminal est utilisée. Ils notent chaque étape en fonction de sa contribution à la réponse finale correcte, en attribuant des valeurs Q qui évoluent au fil des rollouts. Les nœuds terminaux reçoivent une note de 1 pour les réponses correctes et de -1 pour les réponses incorrectes.

Recette d’Auto-Évolution

Ils adoptent une approche d’auto-évolution en quatre rondes. À chaque ronde, ils exploitent les modèles de politique et le PPM pour générer de nouvelles données d’entraînement. Dans la première ronde, ils forment un modèle de politique initial à l’aide de données de synthèse de haute qualité. Dans la deuxième ronde, ils améliorent le PPM grâce à des rollouts MCTS plus fiables. La troisième ronde utilise le PPM pour générer des données de meilleure qualité. Enfin, la quatrième ronde se concentre sur la résolution de problèmes mathématiques plus complexes, en augmentant le nombre de rollouts pour améliorer le taux de réussite sur des problèmes de niveau olympique.

Évaluation

Jeux de Données d’Évaluation

Ils évaluent rStar-Math sur divers benchmarks mathématiques. En plus du très utilisé GSM8K, is incluent des benchmarks plus difficiles provenant de plusieurs domaines: (i) benchmarks de compétition et de niveau olympique, tels que Math-500 et AIME 2024 ; (ii) problèmes mathématiques de niveau universitaire ; et (iii) benchmark hors domaine: le Gaokao, l’examen d’entrée à l’université chinois en 2023.

Modèles de Base et Configuration

rStar-Math est une approche générale applicable à divers LLMs. Pour démontrer son efficacité et sa généralisabilité, il est utilisé des SLMs de différentes tailles comme modèles de politique de base: qwen2.5-math-1.5b, phi3-mini-instruct, qwen2-math-7b et qwen2.5-math-7b. Parmi ces modèles, phi3-mini-instruct est un SLM polyvalent sans spécialisation pour le raisonnement mathématique.

L’évolution des modèles de langage, comme rStar-Math, témoigne d’une avancée significative dans la capacité des intelligences artificielles à aborder des problèmes mathématiques complexes. Grâce à des méthodes innovantes telles que la recherche d’arbres de Monte Carlo et l’auto-évolution, ces modèles démontrent des performances impressionnantes sur des benchmarks mathématiques ainsi qu’un potentiel d’application dans des domaines variés, allant de la finance à l’éducation. Il est crucial de souligner l’importance de la qualité des données et de la formation des modèles de récompense. En intégrant des approches qui favorisent la réflexion profonde et l’évaluation itérative, la recherche ouvre la voie à des applications capables de transformer notre manière de résoudre des problèmes. Cela pose également des questions sur l’avenir de l’apprentissage et de l’enseignement des mathématiques, en particulier dans un monde où l’intelligence artificielle joue un rôle de plus en plus central. Les implications de ces avancées vont bien au-delà des performances techniques. Elles touchent à notre conception de l’interaction entre l’homme et la machine, ainsi qu’à la nécessité d’une réflexion éthique sur l’utilisation de l’intelligence artificielle dans des contextes critiques. En tant que société, il est essentiel d’explorer comment ces outils peuvent enrichir notre compréhension des mathématiques et, plus largement, des sciences et des technologies. À mesure que la recherche sur les modèles de langage progresse, il devient impératif pour les chercheurs, les éducateurs et les professionnels de s’engager dans un dialogue autour des applications de ces innovations. Ce chemin exploratoire invite à une réflexion plus profonde sur l’avenir du raisonnement mathématique à l’ère numérique, ouvrant la porte à de nouvelles découvertes et à des solutions novatrices face aux défis contemporains.

Aller plus loin

Pour ceux qui souhaitent plonger plus profondément dans les fascinants univers des modèles de langage et du raisonnement mathématique, une lecture incontournable est l’article intitulé Large Language Models are Zero-Shot Reasoners. Ce document explore comment ces grands modèles de langage réussissent à résoudre des problèmes complexes sans nécessiter d’entraînement spécifique. En découvrant les principes qui sous-tendent ces innovations, vous serez en mesure d’envisager de nouvelles applications qui pourraient transformer notre compréhension des mathématiques et même du raisonnement humain.

Poursuivant cette exploration, l’article Understanding Monte Carlo Tree Search vous plongera dans le cœur de la recherche d’arbres de Monte Carlo, une technique essentielle pour aborder des défis complexes. À travers des exemples pratiques, cet article vous permettra de saisir non seulement le fonctionnement de cette méthode, mais aussi son importance cruciale dans les modèles de langage modernes. Vous découvrirez ainsi comment des décisions éclairées peuvent être prises même dans des environnements incertains.

Enrichissant davantage votre quête de connaissances, la publication Neural Networks for Reasoning de DeepMind se penche sur les approches novatrices en matière de réseaux de neurones et de raisonnement. En mettant en lumière les avancées récentes et les défis qui persistent dans le domaine de l’intelligence artificielle, cet article s’adresse à tous ceux qui s’interrogent sur les capacités cognitives des machines. Une lecture qui ne manquera pas de stimuler votre curiosité et d’ouvrir des perspectives fascinantes.

L’impact de l’intelligence artificielle sur le domaine des mathématiques est également abordé dans l’article The Role of AI in the Future of Mathematics. Ici, vous découvrirez comment l’IA pourrait révolutionner l’éducation mathématique et la recherche. Les réflexions proposées sur l’intégration de l’IA dans notre approche des mathématiques, tant pédagogiquement que pratiquement, offrent un aperçu captivant de l’avenir de l’apprentissage et de l’innovation.

Enfin, pour les passionnés de mathématiques, la Khan Academy - Math Problem Solving se présente comme une ressource inestimable. Avec une vaste gamme de contenus allant des concepts fondamentaux aux notions avancées, cette plateforme éducative est le point de départ idéal pour renforcer vos compétences en mathématiques et approfondir votre compréhension des méthodes de raisonnement. N’hésitez pas à explorer les diverses ressources qu’elle propose pour enrichir votre parcours d’apprentissage.

Ces lectures et ressources vous permettront d’approfondir vos connaissances sur les modèles de langage, le raisonnement mathématique et l’impact croissant de l’intelligence artificielle. Alors, qu’attendez-vous pour explorer ces liens et découvrir les richesses qu’ils contiennent ?