TreePO, une nouvelle approche dans l'optimisation des LLM par l'apprentissage par renforcement pour résoudre des problèmes de raisonnement complexe

31 août 2025

Dans un monde où la technologie évolue à un rythme effréné, les modèles de langage occupent une place centrale dans le domaine de l’intelligence artificielle. Ils offrent des opportunités inédites en matière de raisonnement et de compréhension du langage humain. L’apprentissage par renforcement (RL) constitue l’un des piliers fondamentaux de cette avancée, permettant aux systèmes d’apprendre à partir de leurs interactions avec l’environnement. Toutefois, cette méthode fait face à des défis considérables, notamment en ce qui concerne l’exploration et l’exploitation. Dans ce contexte, il devient crucial de développer des méthodes innovantes pour surmonter ces obstacles, ce qui nous pousse à repenser notre approche de la génération de réponses par les modèles de langage.

L’exploration fait référence à la capacité d’un modèle à diversifier ses réponses et à s’aventurer dans des territoires inexplorés, à l’image d’un scientifique en quête de nouvelles lois de la nature. Trouver un équilibre entre l’exploration de nouvelles solutions et l’exploitation des solutions déjà efficaces est essentiel. Ce dilemme transcende le domaine de l’intelligence artificielle ; il est également présent dans de nombreux secteurs, comme la biologie, où les organismes s’adaptent continuellement à leur environnement, ou l’économie, où les entreprises jonglent entre innovation et fidélisation de leur clientèle.

La rareté et le retard des récompenses représentent d’autres défis majeurs rencontrés dans les modèles de langage. Ces systèmes doivent souvent traiter des séquences de tokens qui s’étendent sur des milliers d’éléments avant de recevoir une rétroaction significative. Cela soulève des questions critiques sur la manière de guider efficacement le modèle vers des solutions correctes, tout en évitant des coûts computationnels excessifs. Les approches traditionnelles de RL, qui reposent sur la génération de trajectoires indépendantes, montrent leurs limites en raison de leur inefficacité dans l’utilisation des ressources.

C’est dans cette perspective que des solutions alternatives, telles que les recherches arborescentes auto-guidées, commencent à émerger. Ces méthodes novatrices, inspirées de la manière dont les humains abordent la résolution de problèmes complexes, permettent d’évaluer plusieurs chemins simultanément tout en maintenant une structure organisée et efficace. Avec l’introduction de concepts comme TreePO, nous ouvrons la voie à une nouvelle ère de modèles de langage capables non seulement de raisonner, mais aussi d’apprendre de manière plus fluide et adaptative. Dans les sections qui suivent, nous examinerons en profondeur cette approche révolutionnaire et ses implications pour l’avenir de l’intelligence artificielle.

Contexte

Les avancées récentes dans l’alignement des grands modèles de langage par renforcement ont permis d’améliorer la résolution de problèmes complexes de raisonnement. Cependant, ces progrès ont été réalisés au prix de déploiements on-policy coûteux et d’une exploration limitée des chemins de raisonnement. Cet article présente TreePO, une approche novatrice qui aborde la génération séquentielle à travers une recherche arborescente auto-guidée. En intégrant un échantillonnage arborescent dynamique et un décodage par segments de longueur fixe, TreePO exploite efficacement les ressources décisionnelles.

L’apprentissage par renforcement (RL) joue un rôle fondamental dans le développement des capacités de raisonnement des modèles de langage (LLMs). Cependant, deux contraintes majeures entravent son efficacité: l’exploration, qui vise à diversifier les réponses, et l’exploitation, qui cherche à obtenir un retour externe. À l’intérieur des LLMs, les récompenses sont souvent rares et se manifestent après des séquences s’étendant sur des milliers de tokens. Ce constat soulève deux questions essentielles: comment explorer des chemins potentiellement corrects sans engendrer des coûts excessifs, et comment attribuer correctement une récompense sparse aux tokens qui ont contribué à ces résultats.

Problématiques

Les approches traditionnelles de RL génèrent plusieurs trajectoires indépendantes par requête, ce qui s’avère inefficace sur le plan computationnel en raison des caches de clés et de valeurs (KV-caches) disjoints. Conceptuellement, cette méthode est sous-optimale, car elle continue de poursuivre des voies déjà impossibles sans interruption. Bien que des méthodes telles que l’algorithme Monte Carlo Tree Search (MCTS) et ses variantes montrent un potentiel prometteur, elles ne s’adaptent pas bien à l’inférence des LLMs, qui nécessite une forte parallélisation.

Proposition

Une solution innovante est proposée: un échantillonnage arborescent heuristique, auto-guidé, qui est surdéterminé par le KV-cache et structure les préfixes partagés afin de maximiser la récompense obtenue.

TreePO: schéma d’entraînement arborescent pour l’optimisation de politique

Étude de cas: préfixes partagés

Lors de l’analyse d’un prompt spécifique, 16 rollouts stochastiques ont été réalisés avec une température fixée à 0,8. Ces expériences ont révélé l’existence de segments communs significatifs, notamment en ce qui concerne l’interprétation, l’affectation des variables et les déductions initiales, avant que les trajectoires ne divergent. Cette redondance met en lumière l’inefficacité des rollouts indépendants, qui nécessitent un recalcul des préfixes identiques et entraînent des caches KV dupliqués.

Algorithme de déploiement arborescent (aperçu textuel)

Considérons un ensemble de requêtes noté (Q={q_i}) ainsi que des prompts initialisés par cet ensemble. L’algorithme maintient une file de prompts, notée P. À chaque itération, l’inférence d’un segment d’une longueur maximale (l) est effectuée pour chaque prompt actif. Si le segment produit une réponse formatée ou atteint un motif défectueux, la trajectoire est alors rendue. Dans le cas contraire, le prompt est prolongé par la concaténation du segment et re-enchaîné pour une nouvelle itération.

Terminologie

Pour une compréhension claire, il est essentiel de définir certains termes clés: Racine: Requête (q) à une profondeur de 0. Largeur (w): Nombre total de trajectoires complètes. Profondeur (d): Nombre maximal de pas de segments. Longueur de segment (l). Budget de branchement (b) par nœud.

Estimation d’avantage arborescente

L’objectif d’optimisation s’inspire de l’approche GRPO tout en intégrant des améliorations issues de DAPO. Pour une trajectoire (o_i) divisée en segments (s_j), des sous-groupes (G_j) sont définis en fonction du préfixe partagé à une profondeur (j), où (G_{|J|} \subset \dots \subset G_1 \subset G) représente le groupe global à la racine. L’avantage au niveau du token peut être formulé comme suit :

$$ J_{\text{TreePO}}(\theta)=\mathbb{E}\Big[\frac{1}{\sum_i |o_i|}\sum_i\sum_{t}\min\big(r_{i,t}A_{i,t},\ \mathrm{clip}(r_{i,t},1-\varepsilon_\text{low},1+\varepsilon_\text{high})A_{i,t}\big)\Big], $$

avec

$$ A_{i,t}=\frac{\sum_{j} \hat A_{i,t,j}}{|J| \cdot \mathrm{std}({\hat A_{i,t,j}}{j})},\quad \hat A{i,t,j}=R_i-\mathrm{mean}({R_{i,j}}_{G_j}), $$

et une normalisation de variance globale à la manière de REINFORCE++. Ce processus inclut également un rejet dynamique des requêtes qui sont toutes justes ou toutes fausses, selon la condition (0<|{o_i:\mathrm{is_equiv}(a,o_i)}|<G|). Cette formulation renforce les variations intra-réponse significatives au moyen des sous-groupes et aide à désambiguïser les réponses similaires.

Expérimentation

Hyperparamètres

Les modèles utilisés dans cette étude incluent principalement Qwen2.5-7B base, ainsi que les variantes Qwen2.5-7B-Instruct et Qwen2.5-Math-7B-Instruct. Les données d’entraînement proviennent de deux ensembles: MATH (environ 8 000 requêtes, niveaux 3 à 5) et DeepScaler (environ 40 000 requêtes). Les évaluations ont été menées sur plusieurs benchmarks, y compris AIME 2024, AMC 2023, MATH500, MINERVA et Olympiad Bench. Pour la validation et les tests, N=16 rollouts ont été réalisés, utilisant la mesure Majority@1000 pour établir une majorité sur 1000 échantillons.

Réglages arbre

Pour les réglages en ligne, trois couples de profondeur et longueur de segment ont été testés: ({28\times256,\ 14\times512,\ 7\times1024}). Le budget de branchement a été fixé à (2^d) (binaire en l’absence d’arrêt précoce), avec une largeur maximale de (w=16) partagée par le séquentiel. L’exploration a inclus une divergence initiale aléatoire, variant entre 2 et 8, afin d’accroître la diversité des réponses.

Résultats principaux

L’ajout du TreePO sampling au GRPO de base a entraîné une augmentation significative de l’accuracy globale, passant de 46,63 % à 54,61 %. La stabilité d’entraînement s’est également améliorée. En intégrant l’estimateur d’avantage de TreePO, un accroissement supplémentaire de +2,27 % (pour la divergence initiale fixe) et +3,6 % (pour la divergence initiale accrue) a été observé.

Tableau - Comparaison (Majority@16, séquentiel à l’inférence)

GRPO: AIME 17,13 %, AMC 44,42 %, MATH 72,89 %, MINERVA 30,94 %, Olympiad 35,09 %, Global 46,63 %. GRPO + TreePO Sampling: 19,66 % / 51,63 % / 81,85 % / 33,74 % / 44,76 % ; Global 54,61 %. TreePO (Divergence Initiale Fixe): 28,89 % / 56,63 % / 82,41 % / 35,76 % / 47,75 % ; Global 56,88 %. TreePO (Divergence Initiale Accrue): 27,83 % / 55,53 % / 85,34 % / 34,98 % / 49,15 % ; Global 58,21 %.

Tableau - Séquentiel vs Arborescent (Majority@16) et GPU-heures

Divergence Initiale Fixe
Séquentiel: Global 56,88 %, 5,78 GPU-h.
8×2048, b=2: 56,03 %, 4,29 GPU-h (−26 %).
8×2048, b=4: 57,50 %, 4,82 GPU-h (−17 %).
8×2048, b=8: 56,60 %, 5,09 GPU-h (−12 %).
Divergence Initiale Accrue
Séquentiel: Global 58,21 %, 6,40 GPU-h.
8×2048, b=2: 54,67 %, 3,65 GPU-h (−43 %).
8×2048, b=4: 57,26 %, 4,56 GPU-h (−29 %).
8×2048, b=8: 58,06 %, 5,05 GPU-h (−22 %).

Discussion (ablations ciblées)

Efficacité d’échantillonnage (offline)

Pour cette analyse, trois variantes de Qwen2.5 ont été utilisées sur un GPU H100 80GB, sans parallélisme (avec une utilisation d’environ 60 %). Le batch était constitué de 64 prompts, avec 64 rollouts par prompt en mode arborescent. Le budget par trajectoire a été fixé à (B=7,000) tokens, en variant les paramètres ((d,L_{\text{seg}})) pour que (d\times L_{\text{seg}}=B). Les mesures ont révélé une augmentation de 40 % en Trajectoires/s et de 30 % en Tokens/s en moyenne pour l’approche arborescente.

Estimation d’avantage: choix d’agrégation

Une moyenne simple des sous-groupes a surpassé les performances d’une agrégation pondérée par taille, qui tend à survaloriser les sous-groupes larges et faciles tout en minorisant les plus petits et difficiles. Un rejet naïf des sous-groupes tout-juste ou tout-faux nuit également aux performances, risquant de perdre des cas à fort signal. La suppression du terme groupe racine s’est révélée neutre, l’agrégation des sous-groupes étant suffisante pour approcher le signal global. Un fallback mal aligné, avec des segments de (7\times1024) mais un repli à (512) tokens, dégrade les résultats.

Budget de segment (en ligne)

En appliquant une pondération par taille, le couple (14\times512) a atteint la meilleure accuracy sur MATH et AIME, tandis que (56\times128) et (28\times256) ont montré des résultats proches. En revanche, la configuration (7\times1024) a affiché des performances inférieures, particulièrement sur AIME. Une meilleure accuracy est souvent associée à des réponses plus longues et à une entropie plus élevée, tandis que (7\times1024) entraîne une réduction de la performance.

Affectation probabiliste du branching

Les politiques statiques, qu’il s’agisse de favoriser les faibles probabilités ou les fortes, se sont révélées sous-performantes. La première tend à gonfler l’entropie et la longueur des réponses sans bénéfice tangible, tandis que la seconde devient trop gourmande, entraînant un risque de pruning prématuré. Un scheduler progressif, variant la température de 5,0 à 1,0, n’a pas apporté d’avantage décisif. L’exploration doit être significative, évitant d’être artificiellement contrainte.

Scaling compute à l’inférence (arborescent)

En faisant varier le facteur de divergence interne (2, 4, 8), des familles de courbes reliant performance et compute ont été observées: à faible budget, (d=2) s’est montré plus efficace, tandis qu’à budget élevé, (d=8) a atteint le meilleur pic de performance. L’optimum dépend donc du budget et de la stratégie de recherche, contrairement à l’approche séquentielle qui augmente (N) sur une seule courbe.

TreePO reformule les rollouts on-policy en recherche arborescente par segments et introduit une estimation d’avantage hiérarchique. Cette approche réduit les coûts de raisonnement tout en stabilisant l’entraînement et en maintenant des performances élevées. Elle ouvre des perspectives pour l’échelle du RL vers des tâches longs-horizons, telles que le dialogue multi-tours, l’utilisation d’outils, et les scénarios multi-agents, tout en nécessitant moins d’échantillons et de calcul.

L’essor des modèles de langage par renforcement met en lumière des défis complexes liés à l’exploration et à l’exploitation des solutions. L’innovation apportée par des approches telles que TreePO illustre une avancée significative dans la manière dont ces modèles peuvent naviguer dans des espaces de recherche vastes et variés. La capacité à générer des réponses pertinentes tout en optimisant les ressources computationnelles constitue un atout précieux, non seulement pour le domaine de l’intelligence artificielle, mais également pour des secteurs tels que la santé, l’éducation et les services clients.

En réfléchissant à l’impact de ces technologies sur notre quotidien, il est essentiel de considérer comment elles peuvent transformer les interactions humaines et enrichir la prise de décision. Les modèles de langage ne se contentent pas d’automatiser des tâches ; ils ouvrent des perspectives nouvelles en matière de créativité, d’apprentissage et d’adaptation. À mesure que ces outils continuent d’évoluer, leur intégration dans des systèmes plus larges pourrait redéfinir notre compréhension de l’intelligence et de la collaboration entre l’homme et la machine.

Les implications éthiques et sociétales de ces avancées ne doivent pas être négligées. À l’heure où l’intelligence artificielle prend une place de plus en plus centrale dans nos vies, il est crucial de s’interroger sur les biais potentiels, la transparence des algorithmes et l’accès équitable à ces technologies. L’exploration de ces questions constitue une étape essentielle pour garantir que les bénéfices des avancées technologiques profitent à l’ensemble de la société.

Ainsi, l’avenir des modèles de langage et des approches par renforcement s’annonce prometteur, mais il appelle à une vigilance continue et à une réflexion approfondie sur leur rôle et leur impact dans notre monde en mutation. Le chemin qui se dessine devant nous est riche en opportunités, incitant chacun à s’engager dans le dialogue sur l’avenir de l’intelligence artificielle et son intégration harmonieuse dans nos vies. En réfléchissant à ces enjeux, nous pouvons mieux appréhender les défis et les promesses que ces nouvelles technologies apportent à notre société.

Aller plus loin

Pour ceux qui souhaitent plonger dans l’univers fascinant de l’apprentissage par renforcement profond, l’article académique Deep Reinforcement Learning: An Overview constitue une référence solide. Il présente les concepts clés, les techniques courantes et de nombreux cas d’usage.

Si vous voulez comprendre comment les machines traitent le langage, appuyez-vous sur le manuel de référence Speech and Language Processing (3e éd., brouillon) de Jurafsky & Martin. Cette ressource couvre les bases du NLP et le fonctionnement des modèles de langage modernes.

Pour les algorithmes appliqués aux jeux, le papier Monte-Carlo Tree Search: A New Framework for Game AI introduit clairement la recherche par arbre de Monte Carlo (MCTS) et ses applications en planification et prise de décision.

Sur le plan éthique, la Recommandation de l’UNESCO sur l’éthique de l’IA fournit un cadre international pour des systèmes d’IA responsables (transparence, équité, supervision humaine).

Concernant l’alignement de l’IA avec les valeurs humaines, le papier Concrete Problems in AI Safety présente des problèmes pratiques (reward hacking, supervision à grande échelle, exploration sûre, décalage de distribution) et des pistes de recherche.

Enfin, pour une base complète et structurée, le cours en ligne Deep Reinforcement Learning Course (UCL, David Silver) constitue une référence incontournable. Ce cycle de conférences couvre les théories fondamentales et les applications pratiques de l’apprentissage par renforcement, offrant un socle solide pour maîtriser cette discipline.