La révolution du raisonnement dans les modèles de langage, la méthode Chain of Draft pour réduire la latence et améliorer la précision

7 mars 2025

Dans un monde où l’intelligence artificielle évolue à un rythme fulgurant, les modèles de langage de grande taille (LLMs) se positionnent comme des outils capables de transformer notre manière d’interagir avec la technologie. Ces systèmes avancés, tels qu’OpenAI et DeepSeek, exploitent des approches de raisonnement pour résoudre des problèmes complexes dans divers domaines, allant de la médecine à la finance, en passant par l’éducation. L’utilisation d’algorithmes capables de simuler le raisonnement humain soulève des questions fascinantes sur notre compréhension et notre traitement de l’information.

Cependant, malgré leurs capacités impressionnantes, ces modèles rencontrent des défis significatifs, notamment en termes de ressources computationnelles et de latence. À l’instar des chercheurs en neurosciences qui s’efforcent de comprendre les mécanismes du cerveau humain pour améliorer les performances cognitives, les concepteurs de LLMs explorent des moyens d’optimiser ces systèmes afin de les rendre plus efficaces. Parallèlement, le secteur de l’éducation s’interroge sur l’impact de ces technologies sur l’apprentissage et la créativité, se demandant si elles complètent ou remplacent l’intelligence humaine.

Dans ce contexte, une nouvelle approche émerge: la Chaîne de Brouillon (CoD). Cette stratégie vise à réconcilier la puissance des LLMs avec le besoin d’efficacité. En minimisant la verbosité et en favorisant des réponses concises, CoD s’inspire des méthodes de raisonnement humain, où l’on se concentre sur l’essentiel pour avancer. Ce changement de paradigme pourrait non seulement améliorer la vitesse et la précision des réponses fournies par les LLMs, mais aussi transformer notre relation avec l’intelligence artificielle.

Les résultats préliminaires suggèrent que la Chaîne de Brouillon pourrait offrir un compromis entre précision et rapidité, ouvrant la voie à des applications pratiques dans des domaines où la rapidité de décision est cruciale. En réduisant la latence et le coût computationnel, CoD pourrait rendre les LLMs plus accessibles et applicables dans des secteurs sensibles aux délais, comme le service client ou la consultation médicale en ligne. Cette approche pourrait représenter une étape décisive dans l’évolution des systèmes intelligents, nous poussant à reconsidérer notre rapport à la technologie et à ses implications pour l’avenir de notre société.

Contexte de recherche

Les récents progrès réalisés dans les modèles de raisonnement, à l’image de ceux d’OpenAI et DeepSeek, ont permis aux modèles de langage de grande taille (LLMs) d’atteindre des performances inégalées sur des tâches complexes. Grâce à des techniques telles que la Chaîne de Pensée (CoT), ces modèles parviennent à décomposer les problèmes en étapes successives, imitant ainsi le processus de raisonnement structuré chez les humains. Cependant, cette méthode requiert des ressources computationnelles considérables lors de l’inférence, entraînant des sorties verbeuses et une latence accrue. Cette verbosité contraste avec la façon dont les humains abordent généralement la résolution de problèmes: ils s’appuient sur des ébauches concises ou des notes abrégées pour capturer les idées essentielles sans détails superflus.

Reconnaissant cette différence, une nouvelle stratégie de prompting appelée Chaîne de Brouillon (CoD) est proposée, visant à s’aligner plus étroitement sur le raisonnement humain en mettant l’accent sur l’efficacité et le minimalisme. Plutôt que de générer des étapes intermédiaires trop détaillées, la Chaîne de Brouillon encourage les LLMs à produire des sorties denses en informations et concises à chaque étape. Cette approche permet de réduire la latence et les coûts computationnels sans compromettre l’exactitude, rendant ainsi les LLMs plus adaptés à des applications réelles où l’efficacité est essentielle.

Les résultats d’une série de tâches, incluant GSM8K, la compréhension des dates, la compréhension des sports et le lancer de pièces, mettent en évidence des tendances claires en matière de précision et d’efficacité des tokens selon la stratégie de prompting utilisée. En ce qui concerne la précision, les prompts standards affichent des performances médiocres, notamment sur GSM8K, où ils peinent à dépasser 50 %. Les prompts de Chaîne de Pensée (CoT) obtiennent les meilleurs résultats, atteignant presque des scores parfaits dans des tâches telles que la compréhension des sports et le lancer de pièces, tout en dépassant 90 % dans les tâches de compréhension des dates et GSM8K. La Chaîne de Brouillon (CoD) maintient également une haute précision, se rapprochant de CoT dans la plupart des cas, avec une baisse notable uniquement sur GSM8K.

L’utilisation de tokens révèle des histoires différentes. Les prompts CoT sont de loin les plus gourmands en ressources, nécessitant systématiquement le plus grand nombre de tokens pour toutes les tâches, dépassant souvent 150 tokens. CoD présente un profil plus équilibré, conservant un faible nombre de tokens tout en maintenant une forte précision, notamment dans des tâches comme le lancer de pièces et la compréhension des sports. Les prompts standards, bien qu’étant les plus efficaces en termes de tokens, souffrent d’une performance beaucoup plus faible.

Ainsi, bien que CoT maximise la précision à un coût computationnel élevé, CoD offre un compromis efficace entre précision et efficacité, tandis que les prompts standards, bien que légers, n’arrivent pas à offrir des résultats compétitifs.

L’intuition derrière la Chaîne de Brouillon repose sur l’idée que les humains externalisent leur pensée. Lorsqu’ils résolvent des tâches complexes — qu’il s’agisse de problèmes mathématiques, de rédaction d’essais ou de codage — ils tendent à noter uniquement les éléments critiques qui les aident à progresser. En imitant ce comportement, les LLMs peuvent se concentrer sur l’avancement vers des solutions sans le poids d’un raisonnement verbeux.

Pour évaluer l’efficacité de la Chaîne de Brouillon, des expériences ont été menées sur une variété de benchmarks nécessitant un raisonnement en plusieurs étapes, incluant le raisonnement arithmétique, le raisonnement de bon sens et le raisonnement symbolique. Les résultats montrent que cette approche minimaliste maintient, voire améliore, la précision par rapport à la Chaîne de Pensée standard, tout en réduisant significativement l’utilisation de tokens et la latence.

Les contributions de cet article se déclinent en trois volets: l’introduction de la Chaîne de Brouillon, une stratégie de prompting de raisonnement concise inspirée des processus cognitifs humains ; la validation empirique montrant que la Chaîne de Brouillon peut réaliser des latences et des coûts nettement réduits sans sacrifier la précision ; la discussion des implications de la Chaîne de Brouillon pour la conception, le déploiement et l’utilisabilité des LLMs dans le monde réel.

Cadres de raisonnement structurés pour LLMs

Récemment, une variété de modèles de langage de raisonnement ont émergé, y compris ceux d’OpenAI, QwQ d’Alibaba, et R1 de DeepSeek, montrant des améliorations substantielles dans la résolution de tâches complexes. Ces modèles tirent parti de méthodes de raisonnement structurées pour renforcer leur robustesse et leurs capacités de résolution de problèmes. Le concept de raisonnement par Chaîne de Pensée (CoT) a établi une approche fondamentale pour le raisonnement dans les LLMs. Sur cette base, des topologies plus sophistiquées ont vu le jour, telles que les modèles arborescents et graphiques, permettant aux LLMs d’aborder des problèmes de plus en plus complexes.

Réduction de la latence d’inférence LLM

Bien que le raisonnement structuré améliore considérablement les capacités des LLMs à résoudre des questions complexes, il augmente également l’utilisation de tokens avant d’arriver à une réponse finale. Cela complique leur application dans des scénarios sensibles aux coûts et à la latence. De plus, la méconnaissance par le modèle de la complexité de la tâche peut souvent conduire à une surinterprétation, même sur des tâches simples, entraînant une consommation de ressources inutile.

Des techniques telles que le streaming visent à réduire la latence perçue en fournissant progressivement des sorties partielles au fur et à mesure qu’elles sont générées, plutôt que d’attendre la séquence de sortie complète. Cependant, cette approche ne peut pas atténuer complètement la latence globale ou le coût computationnel, et elle est souvent inadaptée pour le raisonnement de type Chaîne de Pensée, car les étapes intermédiaires ne sont généralement pas destinées à être montrées aux utilisateurs finaux.

Comparaison avec des méthodes similaires

Les travaux les plus proches du présent article sont les Concise Thoughts (CCoT) et le raisonnement LLM conscient du budget de tokens (TALE). CCoT propose d’utiliser un budget de tokens global fixe pour les étapes de raisonnement. Cependant, différentes tâches peuvent nécessiter des budgets variés pour atteindre un équilibre optimal entre performance et coût. De plus, les LLMs peuvent échouer à respecter un budget impraticable, générant souvent beaucoup plus de tokens que prévu. TALE étend cette idée en estimant dynamiquement un budget global pour différentes problématiques en fonction de la complexité du raisonnement. Cependant, cette approche nécessite un appel supplémentaire au LLM pour estimer le budget, augmentant ainsi la latence. En outre, elle suppose que le modèle peut prédire avec précision la complexité des requêtes, ce qui limite son applicabilité à des tâches plus complexes nécessitant réflexion, auto-correction ou récupération de connaissances externes. En revanche, l’approche adoptée ici utilise un budget par étape, permettant un nombre illimité d’étapes de raisonnement, ce qui la rend plus adaptable à diverses techniques de raisonnement structuré.

Chaîne de Brouillon

Présentation de CoD

La stratégie de prompting Chaîne de Pensée (CoT) a démontré une efficacité significative à travers un large éventail de tâches, notamment celles nécessitant un raisonnement complexe en plusieurs étapes. Cependant, les LLMs produisent souvent des étapes de raisonnement excessivement verbeuses, consommant un nombre substantiel de tokens avant d’atteindre une réponse finale. En revanche, les humains tendent à adopter une approche plus concise lorsqu’ils résolvent des problèmes complexes, tels que des puzzles mathématiques ou logiques. Plutôt que d’élaborer chaque détail, ils notent typiquement uniquement les résultats intermédiaires essentiels — des brouillons minimaux — pour faciliter leur processus de réflexion. Inspirée par cette tendance naturelle, la stratégie de prompting Chaîne de Brouillon (CoD) est proposée. Cette approche vise à réduire la verbosité en limitant le nombre de mots utilisés à chaque étape de raisonnement, en se concentrant uniquement sur les calculs ou transformations essentiels nécessaires pour progresser.

Exemple illustratif

Pour illustrer la différence entre le prompting standard, la Chaîne de Pensée et la Chaîne de Brouillon, considérons le problème arithmétique suivant :

Question : Jason avait 20 sucettes. Il en a donné à Denny. Maintenant, Jason a 12 sucettes. Combien de sucettes Jason a-t-il données à Denny ?

La réponse générée par une approche de prompting standard fournit directement le résultat, souvent sans aucun raisonnement. Bien que correcte, cela manque de transparence sur la manière dont la réponse a été dérivée et nécessite que le modèle de langage effectue un raisonnement en plusieurs étapes sans aucune aide des résultats intermédiaires, ce qui peut conduire à des erreurs.

Réponse standard : 8

D’un autre côté, le prompting de Chaîne de Pensée propose un processus de raisonnement détaillé. Bien que cette réponse soit précise et interprétable, elle inclut des détails superflus sur Jason, Denny et les sucettes, qui ne sont pas pertinents pour résoudre le problème mathématique. Cette verbosité augmente le nombre de tokens et la latence de la réponse.

Réponse Chaîne de Pensée :

Au départ, Jason avait 20 sucettes.
Après en avoir donné à Denny, il lui en reste 12.
Pour savoir combien de sucettes Jason a données à Denny, nous devons calculer la différence entre le nombre initial de sucettes et le nombre restant.
Nous pouvons établir un problème de soustraction simple: Nombre initial de sucettes - Nombre de sucettes restantes = Sucettes données à Denny.
En insérant les chiffres: 20 - 12 = Sucettes données à Denny.
Résolvant la soustraction: 20 - 12 = 8, donc Jason a donné 8 sucettes à Denny.

En revanche, le prompting de Chaîne de Brouillon condense le processus de raisonnement en représentations minimales et abstraites. Ici, le raisonnement est distillé en une équation concise, se concentrant uniquement sur l’opération mathématique essentielle requise pour parvenir à la solution. En abstraisant les détails contextuels non pertinents, CoD réduit considérablement le nombre de tokens tout en maintenant la transparence et la justesse.

Réponse Chaîne de Brouillon : 20 - x = 12 ; x = 20 - 12 = 8.

Expériences

Configuration expérimentale

Dans les expériences empiriques, l’étude s’est inspirée de l’article original sur CoT pour évaluer trois catégories de tâches: le raisonnement arithmétique, le raisonnement de bon sens et le raisonnement symbolique. Des tâches représentatives où le CoT original améliore significativement la précision par rapport à la base sans raisonnement ont été sélectionnées. En particulier, GSM8K a été choisi pour le raisonnement arithmétique ; la compréhension des dates et des sports de BIG-bench pour le raisonnement de bon sens ; et les tâches de lancer de pièces introduites dans le document CoT.

Raisonnement arithmétique

L’évaluation des problèmes mathématiques mesurant les capacités de raisonnement arithmétique des LLMs débute par GSM8K, qui est devenu le benchmark de choix pour évaluer le raisonnement arithmétique dans les modèles de langage, fournissant un ensemble de données complet de 8 500 problèmes mathématiques divers de niveau scolaire. Chaque problème est associé à une solution détaillée étape par étape, mettant en avant les compétences en arithmétique, géométrie, algèbre et raisonnement logique.

Les résultats de l’évaluation montrent que les deux modèles, GPT-4o et Claude 3.5 Sonnet, rencontrent des défis significatifs avec le prompting standard, atteignant respectivement des précisions de 53,3 % et 64,6 %. Cependant, avec l’application de la Chaîne de Pensée, les deux modèles dépassent 95 % de précision, bien qu’au prix de la génération d’environ 200 tokens par réponse. En revanche, la Chaîne de Brouillon atteint une précision de 91 % pour les deux modèles tout en n’exigeant qu’environ 40 tokens par réponse, réduisant ainsi le nombre moyen de tokens de 80 % et diminuant la latence moyenne de 76,2 % et 48,4 % respectivement.

Sur le benchmark GSM8K, GPT-4o affiche des performances modestes avec un prompt standard, atteignant seulement 53,3 % de précision, tandis qu’il s’améliore considérablement à 95,4 % avec un prompt de Chaîne de Pensée. Avec la Chaîne de Pensée avec Décomposition, sa précision diminue légèrement à 91,1 %, mais avec une réduction notable de l’utilisation de tokens et de la latence.

Claude 3.5 Sonnet dépasse GPT-4o avec le prompt standard, atteignant 64,6 % de précision, mais suit une tendance similaire lorsque les techniques de raisonnement sont appliquées. Avec CoT, Claude atteint 95,8 % de précision, devançant légèrement GPT-4o. Sous le réglage CoD, sa précision tombe à 91,4 %, se rapprochant du comportement de GPT-4o.

En termes d’efficacité, GPT-4o traite généralement moins de tokens et présente une latence plus faible avec CoD, complétant les tâches en 1,0 seconde avec 43,9 tokens, contre 1,6 secondes et 39,8 tokens pour Claude. Cependant, Claude reste légèrement plus rapide et plus léger dans le réglage standard, avec 0,9 secondes et 1,1 tokens, surpassant les 0,6 secondes de GPT-4o avec le même nombre de tokens.

Dans l’ensemble, les deux modèles montrent des gains considérables lorsqu’ils utilisent des prompts de raisonnement avancés, atteignant des précisions de pointe presque identiques sous CoT, bien que Claude l’emporte légèrement en précision brute tandis que GPT-4o mène parfois en vitesse.

Raisonnement de bon sens

Les tâches de compréhension des dates et des sports de BIG-bench sont évaluées pour démontrer l’efficacité de CoD dans le raisonnement de bon sens. Pour garantir la cohérence, les mêmes prompts système que ceux employés dans l’évaluation du raisonnement arithmétique sont utilisés.

Les résultats de l’évaluation montrent que CoD réduit considérablement la latence et les coûts en générant beaucoup moins de tokens dans les réponses par rapport à CoT. De plus, CoD surpasse CoT en précision dans divers cas. Il est à noter que le prompting de Chaîne de Pensée entraîne des réponses excessivement verbeuses pour Claude 3.5 Sonnet, surtout dans la tâche de compréhension des sports, où CoD réduit le nombre moyen de tokens de 189,4 à 14,3 — une réduction de 92,4 %.

Sur la tâche de compréhension des dates, GPT-4o atteint 72,6 % de précision avec un prompt standard, et s’améliore considérablement à 90,2 % en utilisant une approche de Chaîne de Pensée. Avec la technique de Chaîne de Pensée avec Décomposition, sa précision diminue légèrement à 88,1 %, tout en réduisant à la fois le nombre de tokens et la latence par rapport à CoT.

Claude 3.5 Sonnet surpasse GPT-4o avec le prompt standard, atteignant 84,3 % de précision, mais les gains sont plus modestes avec les stratégies de raisonnement. Avec CoT, Claude atteint 87,0 % de précision, se classant derrière GPT-4o dans cette configuration. Cependant, avec CoD, Claude se redresse, atteignant 89,7 %, dépassant la performance de GPT-4o dans ce réglage.

En termes d’efficacité, GPT-4o réalise généralement les tâches plus rapidement et avec moins de tokens. Sous CoD, il termine la tâche en 1,3 secondes en utilisant 30,2 tokens, légèrement devant les 1,4 secondes et 31,3 tokens de Claude. GPT-4o est également plus rapide avec les prompts standard et CoT, maintenant systématiquement une latence plus faible.

Dans cette évaluation, GPT-4o domine dans le réglage CoT, tandis que Claude 3.5 Sonnet excelle dans les configurations standard et CoD, montrant une compétition équilibrée où la stratégie de prompt modifie considérablement l’avantage entre les modèles.

Raisonnement symbolique

Le document original sur CoT introduit la tâche de lancer de pièces, où les LLMs sont invités à prédire quel côté est face après une série d’actions de lancer de pièces. Étant donné que l’ensemble de données exact n’est pas publié, un ensemble de test de 250 exemples a été synthétisé suivant le même design. En particulier, quatre des 1000 premiers prénoms aux États-Unis ont été choisis au hasard et la décision de lancer la pièce ou non a été prise pour chaque nom.

Les résultats de l’évaluation pour GPT-4o et Claude 3.5 Sonnet montrent qu’ils atteignent respectivement 73,2 % et 85,2 % avec le prompting standard. Cependant, les deux modèles atteignent une précision parfaite de 100 % avec CoT et CoD. Encore une fois, CoD démontre une réduction significative des tokens par rapport à CoT, de 68 % pour GPT-4o à 86 % pour Claude 3.5 Sonnet.

Sur la tâche de lancer de pièces, GPT-4o montre une progression notable selon la stratégie de prompting. Avec un prompt standard, il atteint 73,2 % de précision, mais obtient un impressionnant 100,0 % avec à la fois la Chaîne de Pensée et la Chaîne de Brouillon. GPT-4o parvient à cette performance impeccable tout en maintenant une efficacité solide, complétant les tâches CoD en 0,8 secondes avec seulement 16,8 tokens, et les tâches CoT en 1,4 secondes avec 52,4 tokens.

Claude 3.5 Sonnet commence plus fort avec le prompt standard, atteignant 85,2 % de précision, mais, comme son concurrent, Claude obtient également 100,0 % de précision avec les deux stratégies CoT et CoD. Bien qu’il atteigne la performance parfaite.

Le développement des modèles de langage de grande taille, comme la Chaîne de Pensée et la Chaîne de Brouillon, met en lumière l’évolution rapide de l’intelligence artificielle et son impact sur divers secteurs. La capacité à résoudre des problèmes complexes tout en optimisant l’efficacité et la rapidité de réponse est essentielle dans un monde où les décisions doivent souvent être prises en temps réel. L’adoption de méthodes plus concises et axées sur l’essentiel pourrait transformer la manière dont les technologies d’IA sont perçues et leur intégration dans notre quotidien.

Alors que les entreprises cherchent à améliorer leur productivité et leur capacité à innover, l’exploration de ces modèles de raisonnement offre une opportunité précieuse d’améliorer les interactions humaines avec les machines. En parallèle, il est crucial de réfléchir à l’éthique et à l’impact sociétal de ces technologies. Comment ces avancées peuvent-elles être utilisées pour le bien commun tout en préservant des valeurs humaines essentielles ?

Les défis liés à la latence et aux coûts computationnels soulignent l’importance d’une approche réfléchie dans le développement de l’IA, incitant à la recherche de solutions qui favorisent la performance tout en assurant l’accessibilité. À mesure que les capacités de ces modèles se développent, il devient primordial d’explorer leurs applications potentielles dans divers domaines, de l’éducation à la santé, en passant par l’économie. L’avenir de l’intelligence artificielle semble prometteur, et chaque avancée ouvre la voie à de nouvelles réflexions sur notre rapport à la technologie et sur ses conséquences sur nos vies.

Aller plus loin

Pour ceux qui souhaitent approfondir leur compréhension des modèles de langage modernes, l’article Attention Is All You Need est un incontournable. Ce texte fondateur présente le modèle Transformer, qui a révolutionné le domaine de l’intelligence artificielle. En explorant les mécanismes d’attention, vous découvrirez comment ces techniques permettent aux modèles de langage de traiter efficacement des informations complexes. Cet article offre une plongée fascinante dans les fondements théoriques qui soutiennent de nombreuses applications actuelles.

Parallèlement, l’article Language Models are Few-Shot Learners mérite également votre attention. Cet ouvrage introduit GPT-3, un modèle de langage qui a suscité un engouement sans précédent dans le milieu technologique. En s’intéressant à la capacité des modèles de langage à apprendre des tâches à partir de quelques exemples, cet article éclaire l’évolution vers des stratégies de prompting, telles que CoD. Une lecture qui pourrait bien changer votre perspective sur l’intelligence artificielle et son potentiel.

Pour rester à jour avec les dernières avancées dans ce domaine, le site officiel d’OpenAI est une ressource précieuse. Vous y trouverez des informations sur les projets en cours, les recherches menées et les modèles innovants développés. C’est un espace incontournable pour quiconque s’intéresse aux applications des modèles de langage et à leur impact sur divers secteurs. Plongez-y pour découvrir les projets qui façonnent l’avenir de l’intelligence artificielle.

Si vous êtes en quête d’apprentissage structuré, le cours en ligne Coursera - Natural Language Processing Specialization, proposé par l’Université de Stanford, est une excellente option. Ce programme couvre les concepts fondamentaux du traitement du langage naturel, ainsi que l’application des modèles de langage. Que vous soyez novice ou déjà familiarisé avec le sujet, ce cours est un précieux point de départ pour approfondir vos connaissances.

Pour les développeurs en quête de modèles de langage pré-entraînés, la plateforme Hugging Face est un incontournable. Elle offre une multitude d’outils permettant d’intégrer des solutions de traitement du langage naturel dans vos applications. Avec des ressources qui facilitent l’expérimentation avec des modèles comme BERT et GPT, cette plateforme est une véritable mine d’or pour les innovateurs souhaitant explorer de nouvelles idées.

Enfin, si vous recherchez des projets pratiques et des défis en science des données, Kaggle est le site qu’il vous faut. Ce portail de partage de données et de compétitions propose des ensembles de données liés au traitement du langage naturel, vous permettant ainsi de vous familiariser avec des projets concrets et stimulants. C’est un lieu idéal pour mettre en pratique vos compétences et relever des défis captivants.

Pour échanger des idées et des connaissances, la communauté active de Reddit - r/MachineLearning est un excellent endroit. Ici, les passionnés de l’apprentissage automatique partagent leurs réflexions sur les dernières tendances et innovations. C’est un espace propice pour poser des questions et obtenir des conseils de ceux qui partagent votre enthousiasme pour le sujet.

Enfin, pour des réponses à des questions techniques ou des problèmes de programmation, Stack Overflow est le forum incontournable. Les développeurs y posent des questions sur divers aspects du traitement du langage naturel, et les experts partagent leurs connaissances pour aider à résoudre des problèmes spécifiques. Cet échange d’informations enrichissant peut s’avérer précieux pour quiconque travaille avec des modèles de langage.

Ces ressources vous permettront d’approfondir vos connaissances et de mieux saisir les concepts liés aux modèles de langage ainsi qu’à leurs applications dans divers domaines. N’hésitez pas à explorer ces liens pour découvrir un monde d’opportunités d’apprentissage et d’innovation.