Dans un monde où l’intelligence artificielle (IA) transforme chaque jour nos interactions et nos façons de penser, une nouvelle approche émerge: celle de “penser avec la vidéo”. Ce concept novateur va bien au-delà des simples algorithmes et des lignes de code. Il réinvente la manière dont les machines apprennent et communiquent en intégrant la dynamique visuelle au processus de raisonnement. À l’instar des avancées technologiques dans d’autres domaines, comme la réalité virtuelle ou augmentée, cette méthode fait appel à une immersion sensorielle qui aide à mieux comprendre. Tout comme les enseignants utilisent des supports visuels pour expliquer des concepts complexes, cette approche vise à rendre les raisonnements des modèles d’IA plus accessibles et intuitifs.
Imaginez un instant un étudiant devant un tableau noir, où chaque étape d’un raisonnement mathématique est illustrée par des dessins et des annotations. Cela permet non seulement d’assimiler l’information plus rapidement, mais aussi de favoriser une mémorisation durable. De la même manière, “penser avec la vidéo” permet aux machines de décomposer leurs processus de pensée, d’expliquer leurs choix en temps réel et d’interagir avec leur environnement de manière plus humaine.
Cette technique ouvre également des perspectives intéressantes pour des applications pratiques dans divers domaines, tels que l’éducation, la médecine ou même l’art. Dans le secteur éducatif, elle pourrait révolutionner la manière dont les élèves apprennent les mathématiques et les sciences, en rendant les concepts abstraits plus concrets et engageants. Dans le domaine médical, un modèle d’IA capable de démontrer ses analyses à travers des vidéos pourrait améliorer la compréhension des diagnostics complexes par les médecins et les patients.
Cependant, cette avancée soulève également des questions essentielles. Quelles sont les implications de cette nouvelle façon de penser pour l’avenir de l’IA ? Comment peut-on garantir que ces modèles apprennent de manière éthique et responsable ? Alors que nous nous dirigeons vers un avenir où l’IA devient de plus en plus omniprésente, il est crucial d’explorer ces dimensions tout en tirant parti des opportunités qu’offre “penser avec la vidéo”.
Comment cela fonctionne-t-il concrètement ?
Identification d’un problème
L’intelligence artificielle (IA) continue d’évoluer, et une innovation intéressante émerge avec le concept de “penser avec la vidéo”. Cette approche novatrice permet aux modèles d’expliquer leurs solutions non seulement à travers des mots ou des images fixes, mais en créant des vidéos explicatives. Ce procédé illustre le raisonnement de l’IA de manière dynamique, de la même manière qu’un enseignant utilise un tableau blanc. L’objectif est de surmonter les limites des représentations statiques, offrant ainsi une compréhension plus intégrée et fluide.
Le processus débute par la présentation d’un défi pouvant revêtir diverses formes, telles qu’un puzzle visuel, un labyrinthe, un exercice de mathématiques ou un questionnaire à choix multiples multimodal.
Génération de la vidéo par le modèle
Le modèle, désigné sous le nom de Sora-2 dans cette étude, produit une vidéo d’une durée de 10 secondes dans laquelle il illustre et verbalise la solution au problème. Cette approche multimodale enrichit l’expérience utilisateur.
Évaluation automatisée des réponses
L’évaluation des réponses s’effectue en deux étapes:
- Vérification visuelle: La dernière image de la vidéo, ou plusieurs images clés, est extraite et analysée pour valider la réponse.
- Vérification audio: La réponse énoncée est transcrite et examinée. Ces vérifications reposent sur un système de jugement utilisant un LLM-as-a-Judge, avec des consignes strictes de type oui/non. Les résultats montrent une concordance d’environ 90 % pour l’image finale et 98 % pour l’audio, sur un échantillon testé.
Un nouveau banc d’essai: VideoThinkBench Pour tester cette nouvelle approche, l’équipe a développé VideoThinkBench, un ensemble de données comprenant 4 149 cas répartis en deux catégories de tâches :
Vision-centric (2 696 cas)
Eyeballing puzzles: 1 050 cas de géométrie à main levée. Mazes: 150 labyrinthes générés pour évaluer les capacités de navigation. ARC-AGI-2: 1 000 cas pour évaluer le raisonnement visuel. Visual puzzles: 496 cas divers.
Text-centric (1 453 cas)
Cette catégorie inclut des sous-ensembles de jeux de données variés tels que GSM8K, MATH-500, AIME, BBH, MMLU, MMLU-Pro, GPQA et SuperGPQA, ainsi qu’une approche multimodale intégrant MathVista, MathVision, MMBench et MMMU.
Avantage de la méthode: La majorité des tâches sont vérifiables automatiquement, ce qui permet des comparaisons rigoureuses et à grande échelle, renforçant ainsi la validité des résultats obtenus.
Ce que montre l’étude (en termes simples)
Sur les puzzles visuels, la vidéo aide… mais pas partout
Les résultats révèlent qu’en ce qui concerne les labyrinthes, Sora-2 réussit à tracer un chemin valide dans 40 % des cas, mais uniquement sur des grilles carrées. En revanche, il échoue sur des structures plus complexes comme les labyrinthes hexagonaux et circulaires, affichant un taux de réussite de 0 %. Cela indique que le modèle est plus à l’aise avec des topologies régulières. Concernant les eyeballing puzzles, l’analyse montre que l’agrégation de plusieurs images issues de la vidéo produit les meilleurs scores. L’évaluation “major frame” dépasse systématiquement les performances de la dernière image seule et de l’audio, soulignant l’importance du fil temporel dans l’évaluation.
Sur le texte (mathématiques et connaissances), l’audio est souvent le plus fiable
Lors de l’analyse des réponses textuelles, le modèle présente sa solution à la fois par écrit et oralement. Les résultats indiquent que la réponse audio atteint des niveaux de performance comparables à ceux des VLMs de pointe sur divers jeux de données, notamment GSM8K avec un score de 98,9 % et MATH-500 avec 92 %. Cependant, la performance de la réponse écrite dans la dernière image est moins constante, surtout sur des défis plus complexes comme AIME et GPQA, où l’écart avec les meilleurs VLMs reste significatif.
Le modèle apprend “sur le tas” et bénéficie du vote
L’étude met également en lumière l’apprentissage par exemples, où fournir davantage d’exemples en entrée améliore les performances sur des tâches comme ARC-AGI-2. Ce comportement “few-shot” est prometteur. De plus, la capacité à générer plusieurs vidéos pour résoudre un même problème et à recourir à un système de vote augmente considérablement le taux de réussite. Par exemple, pour un puzzle donné, le taux de bonnes réponses peut passer de 68 % à 90 % avec cinq essais différents.
Pourquoi “penser en vidéo” est pertinent (au-delà des chiffres)
L’approche de “penser en vidéo” présente plusieurs avantages significatifs. Tout d’abord, elle permet une représentation dynamique de la démarche de résolution, où l’utilisateur peut visualiser des actions telles que tracer un rayon réfléchi ou remplir une case, rendant le processus plus intuitif, notamment pour les tâches spatio-temporelles. Ensuite, cette méthode est intrinsèquement multimodale, combinant texte et voix dans une seule séquence vidéo, ce qui rapproche le fonctionnement du modèle de la manière dont un humain raisonne au tableau. Enfin, l’évaluation programmable devient un atout majeur, car de nombreuses tâches peuvent être vérifiées automatiquement, ce qui accélère la recherche et améliore la fiabilité des résultats.
Limites reconnues par les auteurs
Malgré ses avancées, le modèle Sora-2 présente certaines limites. Tout d’abord, il s’agit d’un modèle fermé, ce qui empêche une analyse approfondie de ses mécanismes internes. De plus, bien qu’il puisse parfois fournir la bonne réponse, il peut échouer à présenter un raisonnement écrit complet et cohérent dans la vidéo. Les auteurs suspectent que certaines réussites résultent d’un module réécrivain de prompt, plutôt que d’un raisonnement maîtrisé pas à pas. Enfin, la généralisation des résultats est inégale, comme le montre l’échec total sur les labyrinthes non carrés, signalant qu’il reste encore des défis à relever.
Et après ?
Pour progresser, plusieurs pistes de recherche sont envisagées. Il serait pertinent de tester d’autres modèles vidéo, notamment ceux en open-source, afin d’explorer davantage les possibilités offertes par cette approche. Par ailleurs, l’entraînement par renforcement sur des tâches vérifiables pourrait renforcer les performances du modèle, notamment par le biais d’un scaling de VideoThinkBench associé à des récompenses vérifiables. Transformer des corpus texte en “frames manuscrites” représente également une voie d’amélioration, visant à optimiser l’écriture au sein de la vidéo et à créer une IA véritablement unifiée, intégrant texte, image et son.
À retenir
Le concept de “penser en vidéo” se présente comme une voie innovante, se situant entre “penser en texte” et “penser en images”. Ce modèle montre déjà des résultats encourageants sur des puzzles visuels et des exercices de mathématiques et de questions-réponses, particulièrement lorsque l’on exploite le temps à travers des images multiples, des systèmes de votes et des réponses audio. Néanmoins, des défis subsistent, notamment en ce qui concerne certaines formes de problèmes et la rédaction détaillée. Cette approche ouvre des perspectives sérieuses pour le développement d’IA qui raisonnent de manière plus humaine, en traçant, écrivant et parlant, avec la vidéo comme élément central de leur processus de pensée.
L’approche innovante de “penser avec la vidéo” met en lumière une évolution significative dans le domaine de l’intelligence artificielle, soulignant la nécessité d’une interaction plus dynamique entre les machines et les utilisateurs. En permettant aux modèles d’illustrer leurs raisonnements à travers des vidéos, cette méthode surmonte les limites des représentations statiques et offre une expérience d’apprentissage enrichissante. Les résultats prometteurs observés dans divers tests, allant des puzzles visuels aux exercices mathématiques, mettent en avant le potentiel de cette technique pour transformer l’éducation et d’autres secteurs.
Les avantages de cette approche ne se limitent pas à une simple amélioration de la compréhension ; ils posent également des questions essentielles sur l’avenir de l’intelligence artificielle et son intégration dans notre quotidien. À mesure que ces technologies continuent à évoluer, il devient crucial d’examiner comment elles peuvent être appliquées de manière éthique et responsable, tout en prenant en compte les implications sociales et culturelles.
Les possibilités d’application sont vastes, que ce soit pour améliorer l’apprentissage des élèves, faciliter des diagnostics médicaux complexes ou enrichir les expériences artistiques. En explorant plus en profondeur ce concept, chacun peut participer à façonner un avenir où l’intelligence artificielle ne se contente pas de traiter des données, mais aide également à établir des connexions entre les idées, les personnes et les connaissances. Les enjeux sont nombreux, et il appartient à chacun de rester informé et engagé dans cette transformation captivante.
Aller plus loin
Pour ceux qui souhaitent plonger plus profondément dans l’idée de « penser avec la vidéo » et ses applications en intelligence artificielle, plusieurs ressources de référence permettent d’allier théorie, pratique et usages concrets.
Commencez par la démonstration du raisonnement visuel à partir de modèles vidéo avec l’article d’OpenAI – Video generation models as world simulators, qui présente comment la génération vidéo sert de socle à des capacités de compréhension du monde physique.
Côté apprentissage auto‑supervisé sur la vidéo, le billet de Meta sur V‑JEPA expose une approche prédictive non générative, où le modèle apprend à compléter des parties masquées d’une séquence en espace de représentation.
Pour relier vidéo et interaction, les travaux de Google DeepMind sur Genie : Generative Interactive Environments montrent comment créer des environnements jouables à partir de vidéos, ouvrant la voie à des agents qui testent leurs hypothèses dans des mondes cohérents.
Si vous cherchez un parcours d’apprentissage pratique, les cours Convolutional Neural Networks (DeepLearning.AI) et Advanced Computer Vision with TensorFlow couvrent les fondamentaux et les techniques avancées (détection, segmentation), utiles pour passer des images fixes à la vidéo.
Pour intégrer l’humain dans la boucle, le papier de Microsoft Research The Role of Humans in Interactive Machine Learning propose des principes de conception qui s’appliquent aux systèmes vidéo interactifs et aux interfaces d’annotation.
Côté données et évaluations, le site d’Ego4D centralise un vaste corpus vidéo en première personne et des benchmarks clés pour l’« intelligence incarnée », tandis que le papier Something‑Something fournit un jeu d’actions fines utile pour tester compréhension et « physique intuitive ».
Enfin, pour cadrer les implications du raisonnement vidéo, la page du Future of Life sur The AI Alignment Problem aide à situer les enjeux de sûreté et d’alignement lorsque l’on confie à des modèles la compréhension et la planification à partir de flux visuels.
Ces ressources offrent un itinéraire cohérent — modèles, cours, datasets et cadre éthique — pour explorer en profondeur les systèmes qui raisonnent avec la vidéo et s’attaquent à des problèmes complexes du monde réel.
