Les capacités de raisonnement des LLMs ont été nettement améliorées par le RLVR. Néanmoins, des travaux récents montrent que des entraînements RLVR de type GRPO peuvent diminuer la diversité de génération du modèle, ce qui accroît l’efficacité d’échantillonnage et le Pass@1 mais ne progresse pas en Pass@k par rapport au modèle de base. Dans le RLVR, l’entropie d’entraînement quantifie la diversité des sorties, tandis que les hausses de Pass@k encouragent l’exploration ; l’ensemble reflète le potentiel de poursuite des progrès. Quand l’entropie s’effondre vers zéro, la politique produit des solutions homogènes, perd des trajectoires de raisonnement plus avancées et voit le Pass@k diminuer ; à terme, le Pass@1 plafonne faute d’exploration. Maintenir l’entropie et améliorer Pass@k sont donc deux facteurs critiques pour un RLVR durable.
La cause principale de l’effondrement d’entropie et du plateau de Pass@k est un RLVR mené sur un ensemble limité de problèmes, où la politique est aisément récompensée en répétant des réponses mémorisées (une forme de « hacking » du RLVR). Intuitivement, maintenir entropie et diversité demande un large éventail de problèmes, voire des problèmes nouveaux à chaque étape. Or, constituer de grands jeux avec réponses vérifiables est non trivial : les jeux annotés par des humains sont rares et parfois mal alignés avec les capacités actuelles des LLMs ; les données synthétiques manquent souvent de réponses de référence précises. La question devient : peut-il exister une augmentation de problèmes simple et efficace, durablement diversifiée, alignée aux capacités du modèle et avec réponses étiquetées exactes ?
Les chercheurs répondent par SVS, une stratégie en ligne où la politique génère des problèmes variationnels à partir de ses solutions correctes sur des problèmes difficiles et sous-performants de l’ensemble d’entraînement, afin de cibler les faiblesses. Les solutions correctes capturant l’information essentielle de l’énoncé, la politique est incitée à produire des variations reformulées (structures et descriptions différentes) tout en préservant la sémantique et la même réponse de référence. Puis la politique tente de résoudre ces problèmes auto-générés ; la cohérence entre les réponses produites et la réponse d’origine valide les problèmes synthétiques. Le pipeline n’emploie aucune guidance externe, fonctionne en self-improvement de bout en bout, et reste agnostique de l’algorithme RLVR (intégrable à PPO, GSPO, Reinforce++, etc.). Ils valident sur des LLMs 3B→32B et 12 benchmarks ; SVS surpasse le RLVR standard, maintient l’entropie dans une plage stable et obtient les gains de 18,3 % et 22,8 % en Pass@32 sur AIME24/25.
Méthode
Préliminaires : GRPO
GRPO est un algorithme d’optimisation RL pour LLMs qui calcule les avantages au niveau du groupe sans critique auxiliaire. Pour un prompt x, la politique πₜₕₑₜₐ_old génère un groupe de G réponses $Y={y_i}{i=1}^{G}$ avec récompenses $R={r_i}{i=1}^{G}$. L’avantage token-par-token $A_{i,t}$ d’une réponse $y_i$ est la normalisation de groupe :
$$ A_{i,t}=frac{r_i-mathrm{mean}({r_i}{i=1}^{G})}{mathrm{std}({r_i}{i=1}^{G})}. $$
La stabilité est assurée par un clipping du ratio de probabilité $k_{i,t}(theta)=frac{pi_theta(y_{i,t}mid x,y_i,<t)}{pi_{theta_{mathrm{old}}}(y_{i,t}mid x,y_i,<t)}$ dans une trust-region et un terme KL vers un modèle de référence. L’objectif est :
$$ J_{mathrm{GRPO}}(theta)=mathbb{E}{xsim D, Ysim pi{theta_{mathrm{old}}}} Bigg[frac{1}{G}sum_{i=1}^{G}frac{1}{|y_i|}sum_{t=1}^{|y_i|} minbig(k_{i,t}(theta)A_{i,t}, mathrm{clip}(k_{i,t}(theta),1-varepsilon,1+varepsilon)A_{i,t}big) -beta,mathrm{DKL}(pi_thetaVert pi_{mathrm{ref}})Bigg]. $$
Vue d’ensemble de SVS
À chaque itération, SVS alterne résolution et synthèse et alimente en ligne un buffer d’expérience B :
- Résolution des problèmes originaux : la politique πθ génère G solutions $y_i$ pour chaque paire $(x,a)$ du jeu D. La récompense de correction est
$$ R_c(y_i,a)=mathbf{1}{mathrm{Extract}(y_i)=a}. $$
Les problèmes dont l’accuracy de groupe est 0 ou 1 sont filtrés ; les autres $(x,{y_i})$ sont ajoutés à B. 2) Synthèse variationnelle à partir des réponses : les chercheurs sélectionnent les problèmes difficiles dont l’accuracy Acc(x) est dans une plage $[a_{l},a_{h}]$, excluant les trop faciles et les insolubles. Pour chaque réponse correcte $y_i$, la politique synthétise $G^{v}$ problèmes variés ${hat{x}j^i}{j=1}^{G^v}$, attendus sémantiquement alignés et partageant la réponse $a$, ce qui évite toute nouvelle annotation. 3) Résolution des problèmes synthétiques : pour chaque $hat{x}$, la politique produit G solutions $hat{y}_k$, notées par
$$ R_c(hat{y}_k,a)=mathbf{1}{mathrm{Extract}(hat{y}_k)=a}. $$
Les chercheurs retiennent les $hat{x}$ où le groupe est mixte (ni tout-bon ni tout-faux), c’est-à-dire $0<sum_k R_c(hat{y}_k,a)<G$, car ces cas apportent un signal d’apprentissage efficace.
Reward shaping pour la synthèse
Une mesure naïve donnerait $R_v(hat{x})=1$ si au moins une solution extrait a. Cela peut être exploité (indices, fuite de réponse) et produit des variantes trop triviales. Ils imposent donc une contrainte : récompenser positivement $hat{x}$ uniquement si l’accuracy de groupe est dans une plage modérée $[hat{a}{l},hat{a}{h}]$ :
$$ R_v(hat{x})=mathbf{1}{hat{a}{l}le mathrm{Acc}(hat{x},a)le hat{a}{h}}. $$
Les variantes intégralement résolues ou jamais résolues ne sont pas récompensées, ce qui décourage les formulations avec trop d’indices ou inexploitables.
Données d’entraînement finales
À chaque étape, le buffer B contient trois types de tuples (prompt, réponse, récompense) : (1) Résolution originale : $(x, y_i, R_c(y_i,a))$ ; (2) Synthèse variationnelle : $(y_i, hat{x}_j^i, R_v(hat{x}_j^i))$ ; (3) Résolution synthétique : $(hat{x}_j^i, hat{y}_k, R_c(hat{y}_k,a))$. La politique πθ est mise à jour via GRPO sur B, puis B est vidé.
Algorithme (version textuelle)
Entrées : jeu D, politique initiale πθ, plages $[a_l,a_h]$ et $[hat{a}_l,hat{a}_h]$, tailles de groupes G, Gᵛ, nombre d’étapes T. Boucle pour $t=1dots T$ :
- Échantillonner un batch dans D.
- Pour chaque $(x,a)$, générer G solutions $y_i$ avec πθ, calculer $R_c$.
- Si $0<mathrm{Acc}(x)<1$, ajouter $(x,y_i)$ à B.
- Si $a_l<mathrm{Acc}(x)<a_h$ : a) Sélectionner les $y_i$ corrects. b) Pour chaque $y_i$, synthétiser $G^v$ problèmes $hat{x}_j^i$. c) Pour chaque $hat{x}_j^i$, générer G solutions $hat{y}_k$, calculer $R_c$. d) Garder les $hat{x}$ mixtes $(0<mathrm{Acc}(hat{x})<G)$ et pousser $(hat{x},hat{y}_k)$ dans B. e) Marquer positif $R_v(hat{x})$ seulement si $hat{a}_lle mathrm{Acc}(hat{x})le hat{a}_h$, puis pousser $(y_i,hat{x})$ dans B.
- Mettre à jour πθ suivant GRPO sur B et vider B.
Expériences — réglages et protocole
Modèles, données et inférence
Modèles : Qwen2.5-3B-Instruct, LLaMA-3.1-8B-Instruct, Qwen2.5-32B-Instruct. Jeux d’entraînement : MATH-12k, DAPO-17k (et variante D25k = DAPO-17k + 8k DeepMath à réponses ouvertes). Inférence : vLLM, température 1.0, top-p 0.7, max tokens de réponse = 8 192 (porté à 24 576 pour les expériences de scaling Pass@k). Estimation Pass@k non biaisée pour réduire la variance. Vérification hybride combinant Math-Verify et un vérificateur DAPO. Template chat par défaut et prompt CoT (« Let’s think step by step and output the final answer within boxed{} »).
Principaux constats (compétition)
Sur AIME24 et AIME25, le RLVR naïf plafonne en Pass@32 et Pass@1 vers ~450 étapes, tandis que SVS apporte des améliorations substantielles et soutenues sur ces deux métriques. En DAPO-17k, SVS délivre des gains absolus de +18,3 et +22,8 points en Pass@32 sur AIME24 et AIME25 par rapport au RLVR standard ; la hausse de Pass@k facilite l’exploration et remonte le Pass@1.
Résultats détaillés (extraits représentatifs)
Modèles open-source (références) — Pass@1 / Pass@32 :
- Qwen2.5-32B : 4,3 / 38,9 (AIME24), 1,2 / 15,6 (AIME25), 2,4 / 18,7 (BAIME), 8,0 / 34,0 (Math24o), 3,7 / 24,6 (OlymE), 1,6 / 15,2 (OlymH), moyenne 3,5 / 24,5.
- Qwen2.5-32B-IT : 10,0 / 40,2, 13,0 / 34,6, 7,4 / 24,0, 26,0 / 67,8, 8,6 / 35,2, 2,0 / 9,5, moyenne 11,2 / 35,2.
- SimpleRL-32B : 22,1 / 62,0, 13,9 / 38,5, 8,3 / 27,4, 25,5 / 69,9, 9,4 / 42,5, 3,7 / 19,4, moyenne 13,8 / 43,3.
- ORZ-32B : 24,2 / 55,7, 26,3 / 47,0, 10,9 / 29,4, 16,1 / 58,0, 12,2 / 45,9, 1,1 / 12,3, moyenne 15,1 / 41,4.
Qwen2.5-32B, entraîné MATH-12k :
- RLVR → Pass@1 : 22,2 / 15,8 / 11,5 / 34,5 / 11,7 / 4,1 / 16,6 ; Pass@32 : 47,4 / 36,4 / 29,2 / 66,0 / 36,2 / 16,4 / 38,6.
- SVS → Pass@1 : 30,3 / 21,7 / 13,8 / 42,7 / 20,1 / 3,3 / 22,0 ; Pass@32 : 63,6 / 55,1 / 41,5 / 79,2 / 63,6 / 24,8 / 54,6. Différences SVS–RLVR (absolues) : +8,1 / +5,9 / +2,3 / +8,2 / +8,4 / −0,8 / +5,4 en Pass@1 ; +16,2 / +18,7 / +12,3 / +13,2 / +27,4 / +8,4 / +16,0 en Pass@32.
Qwen2.5-32B, entraîné DAPO-17k :
- RLVR → Pass@1 : 28,8 / 30,0 / 14,0 / 39,6 / 17,9 / 4,8 / 22,5 ; Pass@32 : 52,5 / 42,4 / 35,9 / 71,2 / 47,1 / 18,3 / 44,6.
- SVS → Pass@1 : 39,3 / 40,5 / 19,2 / 44,1 / 21,8 / 2,7 / 27,9 ; Pass@32 : 70,8 / 65,2 / 45,9 / 76,5 / 43,4 / 16,7 / 53,1. Différences SVS–RLVR (absolues) : +10,5 / +10,5 / +5,2 / +4,5 / +3,9 / −2,1 / +5,4 en Pass@1 ; +18,3 / +22,8 / +10,0 / +5,3 / −3,7 / −1,6 / +8,5 en Pass@32.
Benchmarks grand public (sélection, Pass@1) :
- Qwen2.5-3B-Instruct : Init 51,9 ; RLVR(M12k) 54,8 ; SVS(M12k) 57,7.
- LLaMA-3.1-8B-Instruct : Init 39,9 ; RLVR(M12k) 49,4 ; SVS(M12k) 51,8.
- Qwen2.5-32B-Instruct : Init 49,0 ; RLVR(M12k) 54,8 ; SVS(M12k) 57,3 ; RLVR(D17k) 58,6 ; SVS(D17k) 57,9 ; SVS(D25k) 62,8 (rétablit les tâches à réponse ouverte grâce à l’ajout DeepMath).
Analyse (synthèse textuelle, sans mention de figures)
- Diversité de données : l’ajout et la mise à jour périodique de problèmes ralentissent la chute d’entropie, relancent Pass@k et soutiennent l’apprentissage en favorisant l’exploration de nouvelles trajectoires de raisonnement.
- Entropie sous RLVR vs SVS : les entraînements RLVR standards font décroître l’entropie de politique de manière régulière, alors que SVS la maintient dans une plage stable sur divers modèles et jeux de données.
- Extension de la frontière de raisonnement : en augmentant k (jusqu’à 1024), SVS surpasse systématiquement la base et le RLVR standard sur les ensembles compétition ; sur MATH-500, RLVR n’est meilleur qu’à petits k, alors que SVS domine à k élevés.
- Généralisation au-delà du raisonnement : sur des tâches QA généralistes et code, un RLVR focalisé « résolution de problèmes » peut dégrader des performances globales, tandis que SVS évite cette régression et obtient la meilleure moyenne sur 9 tâches (MMLU-Pro, ARC-C/E, HellaSwag, Winogrande, PIQA, BoolQ, HumanEval, AGIEval).
Conclusion
Les chercheurs présentent une stratégie en ligne d’auto-jeu avec synthèse variationnelle qui maintient l’entropie, augmente Pass@k, soutient Pass@1, et étend la capacité de raisonnement des LLMs. La méthode ne requiert pas de nouvelles annotations, s’aligne sur les capacités de la politique, et s’intègre à divers algorithmes RLVR. Les gains sur AIME24/25 (jusqu’à +22,8 pts Pass@32) et les résultats sur 12 benchmarks confirment la robustesse et la généralisabilité de l’approche.
Aller plus loin
Pour ceux qui souhaitent approfondir leur compréhension de l’apprentissage par renforcement, l’article académique Deep Reinforcement Learning: An Overview propose une synthèse claire et largement citée des méthodes fondamentales, de leurs variantes et de leurs applications. Une ressource incontournable pour poser des bases solides.
En matière de traitement du langage naturel, le rapport de Stanford HAI – The State of NLP 2023 constitue une ressource riche. Il examine l’évolution des modèles de langage, leurs capacités et leurs limites actuelles, en mettant en évidence les défis encore ouverts pour la recherche et l’industrie.
Pour ceux qui s’intéressent aux techniques avancées, la publication Variational Methods for Reinforcement Learning explore de manière approfondie l’intégration des méthodes variationnelles dans le RL. Elle présente des résultats expérimentaux montrant leur efficacité pour résoudre des scénarios complexes d’apprentissage.
Afin de mieux comprendre les modèles de type GPT, le survey A Survey on Large Language Models (arXiv, 2023) constitue une ressource de référence. Il couvre l’évolution des modèles génératifs, les variantes de GPT, leurs applications, ainsi que les principaux défis techniques et éthiques liés à leur déploiement.
Enfin, l’article de Brookings Institution – Algorithmic Bias and the Need for Diversity in AI met en lumière l’importance de la diversité dans les données et dans la conception des systèmes d’IA. Il explique pourquoi intégrer des perspectives variées est essentiel pour créer des modèles plus robustes, équitables et représentatifs.
Ces ressources vous offriront un panorama riche et actuel sur l’apprentissage par renforcement, le traitement du langage naturel, les modèles de langage à grande échelle et les enjeux d’équité dans l’intelligence artificielle.