MMSearch-R1, Optimisation de la Recherche Multimodale par Apprentissage par Renforcement

1 juillet 2025

À l’ère de l’information instantanée, naviguer efficacement dans un océan de données est devenu essentiel. Les modèles linguistiques multimodaux, tels que GPT-4o et Gemini, ne sont pas de simples outils d’intelligence artificielle ; ils incarnent le sommet d’une évolution technologique qui vise à imiter la compréhension humaine. En intégrant des éléments visuels et textuels, ces modèles offrent des perspectives fascinantes sur notre interaction avec le savoir. Cependant, malgré ces avancées impressionnantes, des défis cruciaux demeurent, notamment la gestion des connaissances limitées et des informations obsolètes.

La dépendance croissante des LMM à des jeux de données statiques rappelle des domaines tels que la médecine ou la recherche scientifique, où l’accès à des informations à jour est vital. Par exemple, des traitements reposant sur des données anciennes peuvent avoir des conséquences désastreuses pour les patients. De même, un modèle linguistique qui se fie à des informations périmées risque de générer des réponses inexactes et potentiellement trompeuses. Ce phénomène, qualifié d’“hallucination” dans le domaine de l’intelligence artificielle, souligne l’importance d’un accès dynamique à l’information pour garantir la pertinence et l’exactitude des réponses produites.

Il devient donc évident qu’améliorer la manière dont les modèles apprennent et s’adaptent à des informations en temps réel est crucial. Les approches traditionnelles, comme la récupération d’informations augmentée, montrent leurs limites en termes de coût et d’efficacité. La recherche sur les agents par ingénierie de prompt, bien qu’innovante, révèle également des lacunes, laissant les modèles figés dans leur capacité à optimiser leurs recherches.

Dans ce contexte complexe, MMSearch-R1 émerge comme une solution prometteuse. Ce cadre d’apprentissage par renforcement vise à doter les LMM de la capacité à déterminer non seulement quand et comment rechercher de nouvelles informations, mais aussi à évaluer la pertinence des résultats obtenus. Avec cette approche, l’objectif est de transformer ces modèles en agents intelligents capables de naviguer dans un paysage d’information en constante évolution, tout en préservant une précision et une pertinence élevées. En intégrant des outils de recherche multimodaux, MMSearch-R1 se positionne comme un acteur clé dans l’évolution des LMM, les rendant non seulement plus adaptables, mais également véritablement autonomes dans leur quête d’informations.

Mise en place d’un cadre RL intégrant une recherche multimodale itérative

Les récents progrès des modèles linguistiques multimodaux, tels que GPT-4o, Gemini et Kimi-VL, ont transformé le domaine de l’intelligence artificielle. Ces modèles reposent sur un pré-apprentissage massif de paires image-texte, leur permettant d’acquérir une compréhension visuelle approfondie. Néanmoins, cette méthode de pré-apprentissage présente des limites importantes. Elle ne couvre pas les faits publiés après la date limite des jeux de données ni les connaissances spécifiques souvent protégées par des droits d’auteur ou accessibles uniquement derrière des paywalls.

Des études récentes, comme OK-VQA et LiveVQA, ont révélé que même les modèles les plus performants continuent d’halluciner fréquemment lorsque les questions dépassent leur domaine de compétence. Dans ce contexte, l’ajout d’un accès dynamique au web apparaît crucial pour combler ces lacunes. Actuellement, deux grandes familles d’approches dominent le secteur: la première est le RAG (Retrieval-Augmented Generation) qui débute par la récupération de documents statiques avant de générer une réponse, ce qui peut provoquer des problèmes de sur-recherche, des coûts élevés et repose sur l’hypothèse peu réaliste que l’information recherchée est déjà présente dans l’index. La deuxième est celle des agents par ingénierie de prompt, qui reçoivent des instructions telles que « cherche, puis réfléchis ». Cependant, les paramètres demeurent figés, limitant leur capacité à optimiser efficacement leurs appels de recherche.

Récemment, les succès de l’apprentissage par renforcement sur de très grands modèles, comme ceux de la série OpenAI o et DeepSeek-R1, ouvrent la voie à une troisième approche: celle d’apprendre la compétence de recherche elle-même. Toutefois, aucune méthode n’a encore réussi à intégrer la dimension multimodale de manière efficace. L’objectif de MMSearch-R1 est d’enseigner explicitement à un modèle linguistique multimodal à se poser les bonnes questions: « Ai-je déjà la réponse ? », « Si non, quel type de requête est pertinent ? », « Comment exploiter les résultats en plusieurs tours ? ». Pour atteindre cet objectif, les auteurs ont développé FVQA, un corpus équilibré qui incite le modèle à faire des choix éclairés. Ils ont également intégré deux outils de recherche: SerpAPI pour la recherche d’images et un pipeline texte comprenant SerpAPI, Jina Reader, et le résumeur Qwen3-32B. Enfin, la méthode d’optimisation GRPO (Group Relative Policy Optimisation) est appliquée avec une récompense qui combine l’exactitude de la réponse finale et une pénalité proportionnelle au nombre d’appels de recherche.

Rappel: Group Relative Policy Optimisation (GRPO)

L’algorithme GRPO, développé par l’équipe de DeepSeekMath, constitue une variante de l’optimisation par politique PPO pour MMSearch-R1. La différence clé réside dans le fait que GRPO remplace la fonction valeur par une estimation de la “baseline” obtenue à partir d’un ensemble de récompenses. Cette approche permet de réduire considérablement le coût mémoire lors de l’apprentissage. Dans le cadre de MMSearch-R1, chaque parcours, ou roll-out, se déroule dans l’environnement Internet. Le modèle reçoit simultanément une image et une question, lui permettant de décider, à chaque tour, s’il doit répondre ou activer un outil de recherche avant de poursuivre son raisonnement.

Les deux outils de recherche

Outil	Déclencheur	Sortie (max 5 éléments)	Usage principal
Recherche image (SerpAPI)	Le modèle envoie l’image entière	Paires miniature + titre des pages où l’image (ou une proche) apparaît	Identifier des entités visuelles inconnues
Recherche texte (SerpAPI → Jina Reader → résumé Qwen3-32B)	Le modèle génère une requête libre	Résumés ciblés sur la question	Obtenir des faits textuels actualisés

Il est à noter que l’appel texte peut être lancé plusieurs fois, tandis que l’appel image est limité au premier tour.

Déroulé d’un roll-out multi-tour

Le processus débute par le premier tour, où l’entrée consiste en une image et une question. Le modèle rédige son raisonnement entre les balises <reason> … </reason> et choisit ensuite une action: <search><img></search> pour initier une recherche image, <text_search> … </text_search> pour une requête texte, ou <answer> … </answer> s’il estime posséder déjà la réponse. Après chaque recherche, les résultats sont encadrés par <information> … </information>. Ces blocs d’information sont affichés au modèle, mais restent cachés dans la perte pour éviter tout biais de sur-apprentissage sur des pages spécifiques. Les tours deux et trois permettent au modèle d’itérer son raisonnement et de choisir une nouvelle action. La réponse finale doit être fournie au plus tard au troisième tour.

Formulation de la récompense

La formulation de la récompense est essentielle pour orienter le comportement du modèle. Elle est définie comme suit :

$$ \text{Récompense} = (1-\alpha);\times;\text{Score_exact};\times;\text{Pénalité_recherche} + \alpha;\times;\text{Score_format}. $$

Les détails de cette formule sont les suivants: le paramètre choisi est $\alpha = 0,1$ ; le Score_exact est 1 si la chaîne de réponse finale correspond exactement à la vérité, sinon 0 ; la Pénalité_recherche est une valeur dans l’intervalle [0 ; 1]: 0,9 s’il y a eu au moins un appel (coût de 0,1), 1 sinon ; le Score_format est 1 seulement si chaque message suit strictement les balises imposées (un unique outil par tour, réponses finales entre <answer>). Ce mélange incite ainsi le modèle à privilégier sa connaissance interne et à n’activer les outils qu’en dernier recours.

Constitution de jeux VQA équilibrés pour la recherche

Jeu d’entraînement: construction et équilibrage

Les auteurs visent trois critères fondamentaux dans la construction de leur jeu d’entraînement: la présence équilibrée de questions « sans recherche » par rapport à celles « avec recherche » ; les réponses concises et vérifiables afin de permettre un jugement automatique ; et la diversité des domaines et des niveaux de difficulté. Pour atteindre ces objectifs, un pipeline automatisé, nommé FVQA-auto-vc, est mis en place. Il commence par le prélèvement de 10 000 concepts visuels issus de la distribution longue-traîne de MetaCLIP. Pour chaque concept, une image et une page web sont récupérées, suivies de la génération d’une question factuelle centrée sur ce concept via GPT-4o. Ces questions sont ensuite classifiées automatiquement par catégorie de savoir, et un échantillonnage équilibré produit 6 000 paires (5 400 pour l’entraînement et 600 pour le test).

L’enrichissement textuel est réalisé grâce à FVQA-auto-txt, qui utilise 7 000 exemples tirés d’InfoSeek, re-catégorisés selon la même taxonomie. Par ailleurs, une annotation humaine via FVQA-manual-train est effectuée, impliquant 800 questions créées manuellement: chaque annotateur choisit une catégorie, trouve une image et rédige une question vérifiable. Enfin, durant la phase “Search balancing”, un modèle Qwen2.5-VL-Instruct-7B, pré-entraîné mais non RL, exécute 8 roll-outs par question. Tous les roll-outs réussis sans recherche sont étiquetés “search-free”, tandis que ceux réussis uniquement après image (ou texte, ou mixte) reçoivent l’étiquette correspondante. Les questions qui échouent systématiquement sont rejetées. Le résultat final est FVQA-train, qui contient 5 000 exemples, comprenant 3 400 questions nécessitant une recherche et 1 600 questions sans recherche.

Jeu de test: FVQA-test (1 800 exemples)

Le jeu de test est constitué de 1 800 exemples, comprenant: 600 questions issues de la portion test de FVQA-auto-vc, vérifiées manuellement ; 600 questions extraites de la partie “Human split” d’InfoSeek, avec des réponses humaines re-annotées ; et 600 questions issues du processus d’annotation manuelle, afin d’assurer une distribution récente et variée.

Expérimentations complètes

Protocole expérimental

Le cadre d’entraînement repose sur veRL, avec des expériences utilisant Qwen-2.5-VL-Instruct-7B comme politique initiale. Chaque étape d’apprentissage implique: 512 exemples tirés au hasard dans FVQA-train ; 8 trajectoires générées par exemple ; et au maximum 3 tours de dialogue par trajectoire: le premier tour consiste en une image + question, avec éventuellement une recherche image autorisée ; le deuxième tour consiste en des recherches texte possibles ; et le troisième tour nécessite une réponse finale obligatoire.

Les principaux hyper-paramètres comprennent GRPO avec advantage clipping à 0,2, un learning-rate de 5e-6, un poids α de la récompense format fixé à 0,1 et un facteur de pénalité recherche de 0,9. Les détails complets sont présentés en Annexe F.1. Les jeux d’évaluation utilisés dans les expérimentations sont :

Jeu (taille)	Statut	Particularité principale
FVQA-test (1 800)	In-domain	Mélange équilibré image / texte / libre
InfoSeek (2 000)	In-domain	Questions textuelles riches en faits
MMSearch (1 079)	OOD	Images issues de l’actualité récente
SimpleVQA (1 025)	OOD	Questions simples, réponses courtes
LiveVQA (3 000)	OOD	Flux continu temps-réel, images inédites

Les baselines comparées pour chaque modèle (GPT-4o, Gemini 2.5 Pro, Qwen 72 B / 32 B / 7 B) évaluent deux workflows: la réponse directe sans aucune recherche et le workflow RAG fixe, qui implique une recherche image suivie d’une recherche texte imposées. Dans le cas de MMSearch-R1, le modèle choisit librement s’il doit et comment déclencher les recherches. Les métriques utilisées incluent GPT-4o comme juge automatique, avec un score de 1 si la réponse correspond exactement à la vérité. Le taux de recherche (SR %) est défini comme la proportion d’exemples où au moins un outil est invoqué.

Résultats et observations

Tableau 1 - Précision et coût de recherche

Catégorie	Modèle	Acc %	SR %
Direct	GPT-4o	36,0	0
	Gemini 2.5 Pro	36,4	0
	Qwen 72 B	26,6	0
	Qwen 32 B	25,0	0
	Qwen 7 B	21,9	0
RAG 2 recherches	GPT-4o	62,1	100
	Gemini 2.5 Pro	61,8	100
	Qwen 72 B	59,6	100
	Qwen 32 B	55,1	100
	Qwen 7 B	51,6	100
Recherche à la demande	MMSearch-R1-7B	54,6	67,1

Les résultats montrent que MMSearch-R1-7B dépasse Qwen-7B-RAG de 3 points en exactitude, tout en réduisant le nombre d’appels de recherche de près de trois fois. Ce nouveau modèle rivalise également avec Qwen-32 B-RAG, qui possède quatre fois plus de paramètres.

Observations

L’optimisation par renforcement permet au modèle de mieux comprendre ses lacunes et de ne réaliser des recherches que lorsque cela est réellement nécessaire. Le RL renforce simultanément la génération de requêtes efficaces et la synthèse pertinente des informations récupérées. La pénalisation explicite et l’équilibrage entre “search-free” et “search-required” sont cruciaux. L’élimination de l’un ou l’autre conduit à un usage systématique des outils, sans amélioration de la précision. Une fine-tuned SFT sur 8 000 dialogues distillés obtient une moyenne supérieure de 6 points, tandis que le RL, avec seulement 5 000 exemples, gagne 10 points. Cela démontre que la signalisation de récompense orientée vers l’objectif est plus efficace que l’imitation supervisée.

Analyse dynamique d’entraînement

La courbe de récompense montre un plateau stable après environ 4 000 pas. La courbe du taux de recherche (SR) pour MMSearch-R1 présente une décroissance rapide jusqu’à 65 % suivie d’une stabilité. Dans une variante sans pénalité, le taux de recherche grimpe à 100 % en moins de 1 000 pas, ce qui indique que le couplage d’un dataset équilibré avec une pénalité enseigne un comportement frugal face à la recherche.

Conclusion générale

MMSearch-R1 illustre comment un entraînement par renforcement centré sur l’objectif final, tout en facturant la recherche, confère à un modèle linguistique multimodal de 7 milliards de paramètres des capacités d’auto-évaluation. Il permet de reconnaître quand la connaissance interne est suffisante, tout en proposant une recherche multimodale véritablement stratégique, avec des appels ciblés et des coûts réduits d’environ trois fois. Les performances atteintes égalent ou dépassent celles de modèles quatre fois plus grands fonctionnant dans un cadre RAG rigide. Les auteurs de cette étude publient le jeu FVQA, le code GRPO multimodal et les scripts d’outils SerpAPI et Jina Reader, afin de favoriser la recherche vers des agents multimodaux toujours plus autonomes et économes.

L’avènement des modèles linguistiques multimodaux, comme MMSearch-R1, représente une avancée significative dans notre approche de la recherche d’informations. En intégrant des outils de recherche à leur fonctionnement, ces modèles répondent aux défis posés par les données statiques et obsolètes. Cette évolution soulève des questions essentielles sur notre capacité à gérer l’information à l’ère numérique, où la rapidité et la précision des réponses sont cruciales. L’interaction entre l’intelligence artificielle et divers secteurs, tels que la médecine, l’éducation et la communication, transforme profondément notre quotidien. L’optimisation des processus de recherche et de validation des informations pourrait redéfinir les standards de qualité dans ces domaines. Cette dynamique invite également à réfléchir sur la responsabilité des développeurs et des chercheurs pour garantir que ces technologies soient utilisées de manière éthique et bénéfique pour la société. Alors que les modèles linguistiques multimodaux continuent d’évoluer, des perspectives passionnantes s’offrent à nous. L’exploration des capacités d’apprentissage par renforcement et leur application à des tâches complexes pourrait mener à des systèmes encore plus intelligents et autonomes. S’engager dans une réflexion sur l’avenir de l’intelligence artificielle et son intégration dans notre vie quotidienne devient non seulement pertinent, mais nécessaire. Les implications de ces technologies sur notre manière de penser, d’apprendre et d’interagir méritent d’être examinées de près, car elles sont déjà en train de façonner notre avenir.

Aller plus loin

Plongez dans l’univers fascinant des modèles linguistiques avec l’article intitulé Understanding GPT-3 proposé par OpenAI. Ce document offre une exploration approfondie de la technologie qui sous-tend GPT-3, dévoilant ses capacités impressionnantes ainsi que ses limitations. Que vous soyez novice ou expert, cet aperçu vous aidera à mieux comprendre les subtilités de cette avancée majeure dans le domaine des modèles de langage avancés.

Poursuivez votre découverte avec The State of AI in 2021, un article captivant de McKinsey & Company. Cet écrit met en lumière les tendances les plus récentes et les applications variées de l’intelligence artificielle, tout en se concentrant sur son impact sur différents secteurs. Cette ressource est essentielle pour quiconque souhaite suivre l’évolution rapide de l’IA et ses implications pratiques dans notre quotidien.

Pour ceux qui aspirent à se familiariser avec des outils incontournables, la plateforme Hugging Face se présente comme une véritable mine d’or. Elle offre une multitude de modèles pré-entraînés et des outils innovants pour travailler avec des modèles de langage. Grâce à sa documentation exhaustive et à ses tutoriels accessibles, apprendre à utiliser ces technologies devient une aventure enrichissante et stimulante.

Un autre outil fondamental à explorer est TensorFlow, un framework open-source largement adopté pour la création et l’entraînement de modèles d’apprentissage automatique. Avec une documentation riche et des exemples pratiques, TensorFlow constitue un excellent point de départ pour les développeurs désireux d’expérimenter et de créer des modèles novateurs.

Ne manquez pas l’étude fascinante intitulée AI and the Future of Work, publiée par Deloitte. Cette recherche examine en profondeur comment l’intelligence artificielle transforme le paysage professionnel, abordant à la fois les défis et les opportunités qu’elle présente. Une lecture incontournable pour comprendre les implications sociales et économiques des technologies avancées sur notre façon de travailler.

Pour enrichir vos connaissances de manière plus académique, le livre Reinforcement Learning: An Introduction par Sutton et Barto est une référence essentielle. Ce texte offre une approche complète de l’apprentissage par renforcement, expliquant les concepts clés et leurs applications de manière accessible. C’est une ressource précieuse pour quiconque s’intéresse à ce domaine passionnant.

Enfin, pour interagir avec une communauté dynamique de professionnels, rendez-vous sur Kaggle. Cette plateforme permet aux data scientists de partager leurs projets et de participer à des compétitions stimulantes. C’est un espace idéal pour apprendre des autres, échanger des idées et découvrir des cas d’utilisation réels de l’intelligence artificielle et des modèles de langage.

N’oubliez pas de visiter Stack Overflow, un forum incontournable pour tous les développeurs. Ce site vous permet de poser des questions et de trouver des réponses sur divers sujets liés à l’intelligence artificielle, aux modèles de langage et à la programmation. C’est un lieu d’échange où vous pourrez élargir vos connaissances tout en bénéficiant de l’expertise d’une large communauté.

Ces ressources vous invitent à approfondir vos connaissances et à explorer les enjeux et les applications des modèles linguistiques multimodaux et de l’intelligence artificielle, révélant ainsi leur impact sur notre société contemporaine.