Tongyi DeepResearch, l'agent autonome open-source qui redéfinit la recherche informationnelle

31 octobre 2025

Dans un monde où l’intelligence artificielle redéfinit les contours de notre quotidien, l’émergence d’agents autonomes comme Tongyi DeepResearch marque une étape cruciale dans l’avènement de la recherche informationnelle avancée. Alors que les technologies d’IA progressent à un rythme rapide, la nécessité d’outils capables de traiter des flux d’informations complexes devient de plus en plus pressante. Un assistant capable de comprendre vos questions et d’analyser des ensembles de données vastes et variés pour fournir des réponses précises et contextualisées n’est pas un simple rêve futuriste, mais une réalité tangible grâce à des modèles comme Tongyi DeepResearch. À l’instar de la révolution numérique qui a transformé notre manière de communiquer, de consommer et d’interagir, les agents autonomes promettent de bouleverser notre approche de la recherche et de la prise de décision. En intégrant des méthodologies avancées et des techniques de synthèse de données, Tongyi DeepResearch ne se limite pas à reproduire des réponses. Ce modèle aspire à comprendre le contexte, anticiper les besoins de l’utilisateur et fournir des solutions sur mesure. Cette capacité à évoluer et à s’adapter à des environnements complexes rappelle l’évolution des assistants virtuels dans le secteur des services, où l’expérience utilisateur est désormais un critère déterminant de succès. Les implications de cette avancée sont vastes. Dans le domaine de l’éducation, Tongyi DeepResearch pourrait révolutionner la façon dont les étudiants accèdent à l’information, facilitant ainsi un apprentissage interactif et personnalisé. Dans le secteur juridique, il pourrait alléger la charge des avocats en automatisant des recherches complexes, tout en garantissant la précision et la fiabilité des données. Ce modèle d’intelligence artificielle ouvre également la voie à des applications dans le domaine de la santé, où un accès rapide et précis à l’information peut avoir des conséquences vitales. Alors que nous nous dirigeons vers un futur de plus en plus interconnecté, la capacité de Tongyi DeepResearch à naviguer dans des océans d’informations et à produire des réponses pertinentes souligne l’importance d’une telle innovation. Cet article explorera en profondeur les performances, les méthodologies et les applications de ce modèle révolutionnaire, tout en illustrant comment il s’inscrit dans un paysage technologique en constante évolution.

De chatbot à agent autonome Tongyi DeepResearch représente une avancée significative dans le domaine des agents autonomes. S’appuyant sur une méthodologie rigoureuse, ce modèle a été conçu pour exceller dans des tâches complexes, surpassant ainsi tous les agents de recherche profonds actuellement disponibles sur le marché.

Tongyi DeepResearch se présente comme un agent web entièrement open-source, atteignant des performances comparables à celles des modèles avancés d’OpenAI. Ce modèle se distingue par ses résultats exceptionnels sur une large gamme de benchmarks et démontre des capacités de recherche d’information complexes sans précédent. Cet article explore en détail les méthodes de formation qui sous-tendent cette innovation, les données synthétiques utilisées, ainsi que les applications concrètes de Tongyi DeepResearch.

Performance de Tongyi DeepResearch

Tongyi DeepResearch a atteint des scores impressionnants sur plusieurs benchmarks clés, attestant de sa puissance et de son efficacité: Sur le test HLE, il obtient un score de 32.9. Pour le benchmark Browsecomp, il se distingue avec un score de 43.4, et atteint 46.7 dans sa version zh. En ce qui concerne l’évaluation basée sur l’utilisateur, le modèle affiche un score de 75 sur le benchmark Xbench-deepsearch. Ces résultats témoignent de la capacité de Tongyi DeepResearch à traiter des informations complexes, offrant ainsi une alternative crédible aux solutions propriétaires.

Méthodologie de formation

La création d’un agent aussi avancé repose sur une méthodologie robuste qui va au-delà des simples algorithmes d’apprentissage. Une approche systématique intégrant divers aspects de la synthèse de données a été développée, notamment: Agentic Continual Pre-Training (CPT): Une étape cruciale pour établir une base solide de compétences d’agent. Supervised Fine-Tuning (SFT): Une phase de perfectionnement supervisé qui permet d’affiner les performances du modèle. Reinforcement Learning (RL): Cette étape finale est essentielle pour aligner le comportement de l’agent avec des objectifs de haut niveau, grâce à une solution complète alliant innovations algorithmiques et infrastructure robuste.

Pré-formation continue et post-formation

Données de pré-formation continue

L’Agentic CPT est introduit dans la formation des agents de recherche, permettant de créer des modèles de base puissants pour la post-formation. La solution Agentfounder offre une approche systématique et évolutive pour la synthèse de données à grande échelle, se traduisant par un véritable moteur de données.

Réorganisation des données et construction de questions

Des données provenant de diverses sources, telles que des documents, des données crawlées publiquement, des graphes de connaissances et des enregistrements historiques, sont collectées en continu. Ces sources variées sont restructurées en une mémoire de connaissances ouverte et ancrée dans des entités, permettant ainsi la génération de paires question-réponse sous différents formats.

Synthèse d’actions

En s’appuyant sur une variété de problèmes et de trajectoires historiques, des données de synthèse d’actions de premier et de second ordre sont construites. Cette méthode permet une exploration à grande échelle du potentiel de raisonnement dans des environnements hors ligne, supprimant ainsi le besoin d’appels API commerciaux supplémentaires. Pour la synthèse d’actions de second ordre, les trajectoires sont remodelées en processus de prise de décision multi-étapes, améliorant ainsi les capacités décisionnelles du modèle.

Données de post-formation

Une solution de génération de QA synthétiques entièrement automatisée a été développée, ne nécessitant aucune intervention humaine. Ce processus permet de créer des ensembles de données d’une qualité exceptionnelle, conçus pour repousser les limites des performances des agents IA.

Pipeline de génération de données

Pour répondre à des questions complexes et incertaines, un pipeline novateur pour la synthèse de données QA web a été mis en place. Ce processus débute par la construction d’un graphe de connaissances hautement interconnecté, assurant une structure d’information réaliste. Des sous-graphes et des sous-tableaux sont échantillonnés pour générer des questions et réponses initiales, en augmentant stratégiquement la difficulté en floutant certaines informations dans les questions.

Modélisation formelle des problèmes de recherche d’information

Pour réduire les incohérences entre la structure d’information organisée et le raisonnement des QA, une modélisation formelle des problèmes de recherche d’information basée sur la théorie des ensembles a été proposée. Cela a permis de développer des agents capables d’expanser le problème de manière contrôlée, minimisant ainsi les raccourcis de raisonnement et les redondances structurelles, ce qui a conduit à une amélioration significative de la qualité des QA.

Modes de fonctionnement

Mode natif React

Le modèle démontre d’excellentes performances en utilisant le paradigme de raisonnement natif React, sans aucune ingénierie de prompt. Il suit strictement le cycle pensée-action-observation, effectuant plusieurs itérations pour résoudre des problèmes. Avec une longueur de contexte de 128k, il peut gérer un grand nombre de tours d’interaction, ce qui permet de maximiser son potentiel d’interaction avec l’environnement.

Mode lourd

En plus du mode natif React, un mode lourd a été développé pour des tâches de recherche complexes. Ce mode repose sur le nouveau paradigme IterResearch, conçu pour étendre les capacités de l’agent à leur maximum.

Paradigme IterResearch

IterResearch décompose une tâche en plusieurs “rondes de recherche”. À chaque ronde, l’agent reconstruit un espace de travail simplifié en utilisant uniquement les résultats les plus essentiels de la ronde précédente. Dans cet espace de travail focalisé, il analyse le problème, intègre les découvertes clés dans un rapport central en constante évolution, et décide de son action suivante, qu’il s’agisse de rassembler davantage d’informations ou de fournir une réponse finale. Ce processus itératif de “synthèse et reconstruction” permet à l’agent de maintenir une clarté cognitive et une qualité de raisonnement élevées tout au long des tâches longues.

Pipeline de formation de bout en bout

Former un modèle agentique tel que celui-ci a nécessité une réévaluation complète de l’ensemble du pipeline de formation, du pré-entraînement à l’apprentissage par renforcement. Un nouveau paradigme de formation de modèle d’agent a été établi, reliant Agentic CPT → Agentic SFT → Agentic RL, créant ainsi une boucle de formation continue et cohérente pour un agent IA.

Apprentissage par renforcement d’agent

Construire un agent de haute qualité à travers l’apprentissage par renforcement représente un défi complexe d’ingénierie systémique. Des pratiques en matière d’apprentissage par renforcement sont partagées, couvrant tant les aspects algorithmiques qu’infrastructurels.

Innovations algorithmiques

Plusieurs percées algorithmiques ont été réalisées, utilisant une optimisation de politique relative de groupe (GRPO) personnalisée. Un régime d’entraînement strictement on-policy est appliqué, garantissant que le signal d’apprentissage est toujours pertinent par rapport aux capacités actuelles du modèle. L’objectif d’entraînement est optimisé à l’aide d’une perte de gradient de politique au niveau des tokens.

Applications réelles et impact

Tongyi DeepResearch ne se limite pas à un projet de recherche ; il alimente déjà des applications réelles au sein d’Alibaba et au-delà, démontrant ainsi sa valeur dans des scénarios pratiques.

Exemples d’applications

Xiao Gao (agent de navigation): En collaboration avec l’équipe Amap (Gaode), un copilote AI capable d’exécuter des commandes de planification de voyage complexes a été co-développé. Il peut créer des itinéraires de conduite sur plusieurs jours, incluant des lieux pittoresques et des hôtels acceptant les animaux de compagnie, offrant ainsi une expérience de planification intelligente inégalée. Farui (agent de recherche juridique): Grâce à l’architecture DeepResearch, Farui fonctionne désormais comme un véritable agent légal. Il exécute de manière autonome des tâches de recherche complexes, imitant le flux de travail d’un avocat junior, en récupérant systématiquement des jurisprudences, en croisant des lois et en synthétisant des analyses avec une précision professionnelle.

Limitations

Bien que Tongyi DeepResearch soit une avancée majeure, certaines limitations doivent encore être abordées. Premièrement, la longueur de contexte de 128k demeure insuffisante pour les tâches les plus complexes, nécessitant l’exploration de fenêtres de contexte plus larges et d’une gestion de l’information plus sophistiquée. Deuxièmement, la scalabilité du pipeline de formation reste à prouver sur des modèles de base significativement plus grands que le modèle de 30 milliards de paramètres. Enfin, des efforts sont nécessaires pour améliorer l’efficacité du cadre d’apprentissage par renforcement en examinant des techniques telles que les rollouts partiels, ce qui nécessitera de relever les défis associés à l’apprentissage hors politique.

Travaux futurs

Tongyi DeepResearch fait également partie d’une vaste famille d’agents de recherche approfondis. L’équipe est engagée dans la recherche et le développement de modèles d’agents avancés. Au cours des six derniers mois, des rapports techniques ont été régulièrement publiés, totalisant cinq publications à ce jour. L’équipe est impatiente de partager le modèle Tongyi DeepResearch avec la communauté et de continuer à progresser dans le développement de modèles d’agents de nouvelle génération.

L’essor de Tongyi DeepResearch illustre la transformation profonde que connaît le paysage de l’intelligence artificielle, où des agents autonomes deviennent des outils essentiels pour traiter des informations complexes et variées. Les performances remarquables de ce modèle sur des benchmarks variés témoignent de l’efficacité des méthodologies de formation innovantes qu’il intègre, telles que la pré-formation continue et l’apprentissage par renforcement. L’impact potentiel de cette technologie s’étend bien au-delà des simples applications industrielles. Dans des domaines comme l’éducation, la santé ou le droit, les capacités de recherche avancées des agents comme Tongyi DeepResearch offrent des perspectives prometteuses pour améliorer l’efficacité et la précision des services. En facilitant l’accès à une information pertinente et contextualisée, ces agents pourraient transformer le rapport des individus à la connaissance et au savoir-faire. La capacité de ces agents à s’adapter à divers contextes soulève également des questions plus larges sur notre interaction avec la technologie. À mesure que nous intégrons ces outils dans notre quotidien, il est essentiel de réfléchir aux implications éthiques et sociétales de leur utilisation. Comment garantir que ces technologies servent à améliorer l’expérience humaine sans compromettre la qualité de l’interaction ? En explorant ces dimensions, il devient possible d’imaginer un futur où intelligence artificielle et humanité coexistent de manière bénéfique. En définitive, l’aventure de Tongyi DeepResearch ne fait que commencer, et les possibilités semblent infinies. En poursuivant l’exploration de ces avancées, il est crucial de rester attentif aux évolutions qui pourraient redéfinir notre rapport à l’information et à la technologie. Il est donc important de s’informer et de participer aux discussions qui entourent ces innovations pour mieux comprendre leur impact sur notre avenir.

Aller plus loin

Pour approfondir votre compréhension de Tongyi DeepResearch et des agents autonomes de recherche, explorez ces ressources de référence.

Commencez par la page modèle Tongyi‑DeepResearch‑30B‑A3B (Hugging Face), qui présente l’architecture, les capacités et les benchmarks couverts, ainsi que des indications de mise en pratique.

Plongez dans le code source avec Alibaba‑NLP / DeepResearch (GitHub) : implémentation complète de l’agent, scripts d’inférence et pointeurs vers les démos.

Pour la démarche scientifique, lisez le Tongyi DeepResearch Technical Report qui détaille l’entraînement agentique de bout en bout (mid‑training / post‑training), le pipeline de données et les résultats expérimentaux.

Côté évaluation, WebWalker — Benchmarking LLMs in Web Traversal mesure la capacité des agents à parcourir le web et extraire des informations de manière méthodique.

Pour tester la navigation web multi‑étapes, BrowseComp — A Simple Yet Challenging Benchmark for Browsing Agents offre un jeu d’épreuves exigeantes en recherche et interaction.

Découvrez une approche d’agent avancé avec WebSailor — Navigating Super‑human Reasoning for Web Agents, qui propose une pipeline intégrée de raisonnement et d’outillage pour des tâches de recherche complexes.

Côté génération de données d’entraînement, WebShaper — Agentically Data Synthesizing via Information‑Seeking Formalization explore une méthode de synthèse de jeux de données orientés « deep search » pour améliorer la robustesse des agents.

Enfin, pour situer Tongyi DeepResearch parmi les suites d’évaluation focalisées « deep search », parcourez xbench‑DeepSearch, qui met l’accent sur les compétences de recherche outillée et la performance de bout en bout.

Ces ressources vous permettront d’explorer les fondements, le code, l’évaluation et la génération de données autour des agents de recherche autonomes, afin de mieux comprendre les apports et limites de Tongyi DeepResearch.