Embodied AI , comment Wayve entraîne un foundation model pour la conduite autonome

18 mars 2026

À l’aube d’une nouvelle ère technologique, l’intelligence artificielle (IA) est sur le point de redéfinir notre interaction avec le monde physique. Wayve, une startup britannique, se positionne comme un pionnier de cette transformation en plaçant l’IA incarnée au cœur de ses ambitions. Cette démarche va au-delà de la simple construction de voitures autonomes ; elle aspire à créer des systèmes capables d’apprendre et d’évoluer dans des environnements réels, tout comme les êtres humains. Cette vision soulève des questions profondes sur notre avenir commun avec les machines et évoque des révolutions antérieures dans des domaines variés, tels que la médecine, où l’IA aide à diagnostiquer des maladies avec une précision exceptionnelle, ou la robotique, qui assiste les humains dans des tâches complexes.

Le concept d’IA incarnée s’inscrit dans un contexte où la technologie devient une extension de notre propre intelligence. Dans un monde où les interactions humaines et numériques se mêlent de plus en plus, l’idée de machines apprenant et s’adaptant à leur environnement prend tout son sens. Nous assistons à la naissance d’une nouvelle forme de conscience artificielle, où la voiture n’est plus seulement un moyen de transport, mais un acteur à part entière de notre quotidien.

En investissant massivement dans cette technologie, Wayve ne vise pas seulement à révolutionner le secteur automobile, mais également à établir un modèle économique axé sur l’apprentissage collectif et l’innovation continue. Ce modèle pourrait transformer d’autres secteurs, de la logistique à l’agriculture, en permettant à des systèmes intelligents d’optimiser les processus et d’accroître l’efficacité. La promesse d’un avenir où l’IA interagit de manière fluide avec le monde physique suscite des espoirs, tout en soulevant des préoccupations éthiques et sociales. Comment gérerons-nous cette transition vers une coexistence harmonieuse avec des machines intelligentes ? Les défis sont nombreux, mais les possibilités sont infinies.

C’est dans ce contexte que se dessine l’approche unique de Wayve en matière d’IA incarnée, un prélude potentiel à une révolution industrielle sans précédent, marquée par l’interaction entre l’homme et la machine dans un monde de plus en plus connecté.

La Conduite Autonome: le Laboratoire de la Prochaine Révolution Industrielle

Alex Kendall, fondateur visionnaire de Wayve, va bien au-delà de l’ambition de créer une simple voiture autonome. Son projet vise à donner vie à l’intelligence artificielle et à faire de l’automobile le premier terrain d’apprentissage pour ce que l’on désigne comme l’IA incarnée. Alors que l’histoire de l’intelligence artificielle oscille souvent entre conquête numérique et retour vers le monde réel, Kendall se positionne à l’avant-garde de cette seconde phase. Dans un paysage médiatique où les prouesses des modèles de langage dominent les conversations, une révolution silencieuse et complexe s’élabore autour de l’IA incarnée. Wayve n’est pas simplement une startup de plus dans le secteur déjà saturé de la conduite autonome ; elle se présente comme un véritable cheval de Troie, permettant à l’intelligence de s’immiscer dans tous les aspects de notre environnement physique.

#Avec une levée de fonds récente de 1,2 milliard de dollars et une valorisation atteignant 8,6 milliards, accompagnée d’un engagement conditionnel supplémentaire de 300 millions d’Uber, Wayve ne se contente pas de naviguer dans un secteur où de nombreux pionniers ont échoué. Au contraire, cette startup britannique défend une thèse audacieuse: pour qu’un système d’IA apprenne à interagir avec le monde réel, il n’est pas nécessaire de déployer une multitude de capteurs coûteux ou des cartes préprogrammées. Il faut plutôt une architecture capable d’apprendre de l’expérience, de manière continue et généralisable. Ce changement de paradigme, qui fait passer la machine programmée à l’agent apprenant, se révèle être un pivot stratégique majeur pour la prochaine décennie technologique.

La Thèse de Wayve: Le Bout en Bout Contre l’Orthodoxie Modulaire

Approche Modulaire Traditionnelle

Pour comprendre la rupture que propose Wayve, il est essentiel de revenir sur l’état de l’art de la conduite autonome tel qu’il a évolué depuis le DARPA Grand Challenge. L’approche dominante, illustrée par des entreprises comme Waymo, Cruise ou le projet initial de Tesla, repose sur un modèle modulaire. Ce dernier décompose le problème en une série de sous-tâches distinctes, chacune programmée séparément:

Perception: Utilisation de lidars, radars et caméras pour générer une carte 3D de l’environnement.
Localisation: Positionnement du véhicule sur une carte haute définition préétablie, régulièrement mise à jour.
Prédiction: Anticipation des trajectoires des autres agents, tels que piétons et véhicules.
Planification: Élaboration d’une trajectoire optimale et sécurisée.
Contrôle: Traduction de cette trajectoire en commandes pour le volant et les freins.

Bien que cette approche ait produit des résultats impressionnants dans des zones géofencées, elle a également révélé des limites fondamentales: une dépendance excessive à une infrastructure cartographique coûteuse, des difficultés à gérer les situations imprévues non codées dans les règles, et une complexité systémique exponentielle.

Approche Bout-en-Bout de Wayve

Wayve a choisi de parier sur une approche radicalement différente, beaucoup plus simple sur le papier, mais infiniment plus complexe à mettre en œuvre: un système de deep learning de bout en bout. Voici un aperçu des différences marquantes entre les deux approches:

Aspect	Approche Modulaire Traditionnelle	Approche Bout-en-Bout (Wayve)
Philosophie	Décomposer le problème en sous-problèmes résolus par des règles et des modèles.	Apprendre une fonction unique qui mappe directement les entrées sensorielles aux actions de conduite.
Dépendance Capteurs	Forte (Lidar, Radar, caméras, GPS centimétrique).	Faible (caméras uniquement, hardware-agnostique).
Dépendance Cartes	Critique (cartes HD constamment mises à jour).	Nulle (navigation par vision seule, comme un humain).
Gestion de l’Imprévu	Limitée par les règles et scénarios pré-programmés.	Théoriquement capable de généraliser à partir de données d’entraînement variées.
Évolutivité (Scalabilité)	Complexe et coûteuse (nécessite de re-carter chaque nouvelle zone).	Potentiellement massive (apprend de nouvelles routes en roulant).
Architecture	Empilement de boîtes noires spécialisées.	Réseau neuronal unique et appris.

Le choix de Wayve n’est pas anecdotique. Il repose sur une conviction profonde, issue des travaux de Kendall à Cambridge sur SegNet et la vision par ordinateur: la scène visuelle contient toute l’information nécessaire à la conduite, à condition que le modèle apprenne à l’extraire et à l’interpréter dans un contexte temporel et décisionnel. Le système doit comprendre la géométrie, prédire le mouvement, estimer l’incertitude et décider de l’action à entreprendre, le tout de manière unifiée.

Pourquoi Wayve Incarne un Changement de Paradigme Industriel

De la “Software-Defined Vehicle” au “Model-Defined Vehicle”

L’industrie automobile a connu sa première révolution avec le concept de véhicule défini par le logiciel (SDV). Les constructeurs ont appris à mettre à jour les fonctions à distance, à ajouter des services et à contrôler l’électronique via le code. Wayve propose maintenant la suivante: le véhicule défini par le modèle. Dans ce nouveau paradigme, ce n’est plus le logiciel qui constitue l’ADN de la voiture, mais le modèle fondamental qui a appris à conduire. La voiture devient une plateforme d’exécution pour un cerveau central entraîné sur des données massives et hétérogènes. Les constructeurs ne vendront plus des voitures équipées de fonctions, mais des plateformes physiques compatibles avec un modèle d’IA dont la performance s’améliore avec le temps et les données collectées.

Le Modèle Économique de la Donnée Agrégée

Le positionnement de Wayve face à Tesla illustre parfaitement une stratégie audacieuse. Tesla adopte une approche verticale: ses données proviennent exclusivement de sa propre flotte, ses puces sont conçues en interne et son modèle est optimisé pour ses véhicules. Cette stratégie constitue une forteresse, mais également une forteresse isolée. En revanche, Wayve mise sur une stratégie horizontale: son modèle est hardware-agnostique. En s’associant à des entreprises comme Nissan et Uber, Wayve aspire à agréger des données provenant de flottes variées, de géographies diversifiées et de types de capteurs différents. L’objectif est de créer un effet de réseau où plus le modèle est utilisé par des partenaires différents, plus il devient performant et généralisable, attirant ainsi de nouveaux partenaires. C’est une tentative de bâtir un standard de fait pour l’IA de la mobilité, rendant les constructeurs dépendants d’une couche d’intelligence externe, à l’instar de la dépendance des fabricants de PC envers Microsoft ou Intel.

La Conduite Autonome comme “Problème-Test” pour l’IA Générale

L’intuition principale d’Alex Kendall, qui justifie l’intérêt d’investisseurs comme Yann LeCun, SoftBank et Nvidia, est que la conduite autonome constitue le banc d’essai idéal pour l’IA incarnée. Pourquoi cela ?

Complexité Maîtrisée: C’est un problème difficile, mais dont le cadre (code de la route, interactions sociales) est contraint.
Boucle Sensorimotrice Complète: Elle nécessite de la perception (voir), de la compréhension (interpréter), de la planification (décider) et de l’action (contrôler).
Besoin d’Apprentissage Continu: Les conditions évoluent (météo, travaux, comportements humains), obligeant le système à s’adapter en permanence.
Données Abondantes: Des millions de kilomètres peuvent être parcourus et enregistrés, fournissant ainsi la matière première pour l’apprentissage.

Les modèles développés pour la voiture, tels que LINGO (qui ajoute une interface en langage naturel pour interagir avec le modèle de conduite) et GAIA (un modèle génératif pour simuler des scénarios), sont conçus dès le départ pour être réutilisables. Un modèle capable de comprendre une instruction en langage naturel, comme « gare-toi devant l’entrée », et de l’exécuter dans le trafic londonien, intègre déjà les briques fondamentales d’un robot capable de comprendre et d’agir dans n’importe quel environnement humain, que ce soit un entrepôt logistique, un hôpital ou une chaîne de production.

Une Alternative Européenne Souveraine

Dans un secteur dominé par des acteurs américains (Tesla, Waymo) et chinois (BYD, Pony.ai), Wayve représente un pôle d’excellence technologique européen crédible. Soutenue par des investissements mondiaux (SoftBank, Nvidia, Microsoft) et ancrée dans l’écosystème de recherche britannique de Cambridge, l’entreprise bénéficie d’une position unique. Elle pourrait devenir le champion technologique que l’Europe attend dans le domaine critique de l’IA physique, avec des implications en termes de souveraineté industrielle et de standardisation réglementaire.

Le Chemin Critique: Défis et Conditions de la Réussite

La Démonstration par l’Échelle

Malgré sa thèse élégante et ses levées de fonds impressionnantes, Wayve se confronte à des défis colossaux. L’approche de bout en bout n’a pas encore prouvé qu’elle pouvait atteindre un niveau de sécurité suffisant pour un déploiement massif sans supervision dans des environnements non contraints. La boîte noire du réseau de neurones reste complexe à certifier et à auditer. Comment convaincre un régulateur que le modèle a appris les bonnes règles, et non seulement des corrélations statistiques ?

Le Coût de l’Entraînement

Les modèles de fondation pour l’IA incarnée sont extrêmement coûteux à entraîner, nécessitant des volumes de données et une puissance de calcul (incluant la simulation) qui ne sont pas accessibles à toutes les entreprises. Le soutien de Nvidia est ici crucial, mais cette dépendance à ses GPU demeure un point de vulnérabilité.

La Concurrence des Modèles Hybrides

Tesla ne reste pas inactif. Son approche évolue vers des réseaux de plus en plus intégrés, et sa flotte de plusieurs millions de véhicules lui confère un avantage considérable en matière de collecte de données « longue traîne ». Wayve doit prouver que son agnosticisme matériel lui permettra de rattraper, puis de dépasser, l’avance de Tesla.

Le Passage à l’Échelle Commerciale

Transformer une technologie prometteuse en un produit fiable et rentable constitue l’étape la plus délicate. Le partenariat avec Uber pour déployer des robotaxis à Londres représente un test grandeur nature. L’échec ou le succès de cette première mise en œuvre commerciale enverra un signal fort à l’ensemble du secteur.

Le Premier Pas de l’IA dans le Monde Physique

Wayve, sous l’impulsion d’Alex Kendall, ne se limite pas à construire une voiture autonome. Elle édifie ce que l’on pourrait désigner comme un « système d’exploitation pour le monde physique ». Le véhicule devient le premier terminal de ce système, le premier produit de consommation de masse capable de générer les données et les retours d’expérience nécessaires à l’entraînement d’une intelligence incarnée.

Les enjeux de ce pari dépassent largement le secteur automobile. Pour l’industrie, si Wayve réussit, elle valide un modèle de développement technologique où l’avantage concurrentiel ne réside plus dans la maîtrise d’une chaîne d’approvisionnement physique, mais dans la capacité à former le meilleur modèle d’IA sur les données du monde réel. Pour la recherche, la convergence entre vision, langage, prédiction et contrôle pave la voie à des architectures d’IA plus unifiées, s’approchant d’une forme d’intelligence plus générale et adaptative. Pour la société, le déploiement de cette IA incarnée dans nos rues représente le premier contact de masse avec des agents autonomes. La manière dont cette transition sera gérée (sécurité, éthique, emploi, aménagement urbain) définira les règles des interactions futures avec les robots dans le quotidien.

L’histoire de l’intelligence artificielle est sur le point de franchir une nouvelle frontière. Après avoir appris à lire, écrire et parler, elle se prépare à voir, se déplacer et agir. Pour la première fois, elle le fait dans un laboratoire grandeur nature: nos routes. La Twizy de Wayve, avec ses caméras fixées sur le toit, est le véhicule pionnier de cette expédition. L’ensemble de l’industrie, des constructeurs historiques aux géants de la tech, observe désormais dans le rétroviseur, conscient que la prochaine étape du jeu ne se jouera plus sur des écrans, mais dans le monde tangible que nous habitons.

L’évolution de l’intelligence artificielle incarnée, comme le démontre Wayve, pourrait redéfinir notre manière d’interagir avec notre environnement. En remettant en question les modèles traditionnels de conduite autonome, cette startup illustre comment une approche axée sur l’apprentissage et l’adaptabilité peut transformer non seulement le secteur automobile, mais aussi d’autres domaines tels que la logistique, la santé ou l’éducation. Les implications d’une telle technologie vont bien au-delà de l’innovation technique. Elles touchent à des questions fondamentales sur notre rapport à la technologie, sur les défis éthiques qui en découlent et sur la manière dont nous envisageons notre avenir aux côtés de machines intelligentes. À mesure que l’IA s’intègre davantage dans notre quotidien, il devient essentiel de réfléchir aux normes et aux régulations qui encadreront son développement et son déploiement. L’interaction entre l’homme et la machine pourrait également redéfinir des concepts tels que le travail, l’autonomie et la responsabilité. Les systèmes d’IA, capables d’apprendre et de s’améliorer en temps réel, soulèvent des questions sur la nature même de l’intelligence et de la créativité. Comment ces changements influenceront-ils notre société ? Quelles compétences seront nécessaires pour s’adapter à ce monde en mutation ? L’exploration de ces thématiques offre un terrain fertile pour la réflexion et l’innovation. En suivant l’évolution de l’IA incarnée, il est crucial de rester attentif aux enjeux associés tout en s’engageant dans un dialogue ouvert sur le futur que nous souhaitons construire ensemble. Les avancées de Wayve ne sont que le début ; les prochaines étapes de cette révolution technologique promettent d’être tout aussi captivantes et déterminantes pour notre société à venir.

Aller plus loin

Pour suivre de près l’approche de Wayve et comprendre comment l’entreprise articule “embodied AI” et conduite autonome, la meilleure porte d’entrée reste Wayve Science. On y retrouve leurs publications, leurs axes de recherche et la manière dont ils présentent l’entraînement end-to-end à grande échelle. C’est utile pour distinguer les éléments démontrés, les hypothèses de travail et les briques techniques réellement publiées. En pratique, cette page sert de fil rouge pour relier annonces, papiers et itérations de la stratégie.

Pour saisir ce que signifie “foundation model” appliqué à la conduite, le papier GAIA-1: A Generative World Model for Autonomous Driving est une lecture structurante. Il illustre comment un modèle génératif peut apprendre une dynamique de monde à partir de vidéo, de texte et d’actions, et servir à produire ou contrôler des scénarios. Cela éclaire un point clé : l’entraînement ne se limite pas à prédire une trajectoire, mais à maîtriser des variations de contexte qui conditionnent la robustesse. Cette perspective aide aussi à comprendre pourquoi simulation, génération de scénarios et entraînement de politiques tendent à converger.

Pour replacer Wayve dans un paysage plus large, le survey A Survey for Foundation Models in Autonomous Driving offre une cartographie utile des approches actuelles. Il met en regard modèles de perception, modèles multimodaux, world models et assistants de planification, avec leurs limites et leurs critères d’évaluation. Cette lecture aide à repérer les zones où les gains sont réels (généralisation, données, multimodalité) et celles où les résultats restent fragiles (long tail, interaction, boucles fermées). C’est aussi une bonne base pour comparer des termes souvent utilisés de façon interchangeable dans le discours public.

Pour garder un ancrage empirique, les jeux de données et compétitions publiques restent un repère essentiel face aux démonstrations propriétaires. Waymo Open Dataset combine données, outils d’évaluation et défis qui encouragent la comparaison sur des tâches clairement définies. Cela permet de vérifier si un progrès annoncé se traduit en métriques reproductibles, et sur quels sous-problèmes (perception, prédiction, génération de scénarios, end-to-end). Dans un domaine où les conditions réelles sont difficiles à standardiser, ces benchmarks servent de garde-fou méthodologique.

Pour compléter cette perspective, nuScenes est une autre référence très utilisée pour étudier des scènes urbaines complexes et multi-capteurs. Son intérêt est de fournir un terrain commun pour tester la robustesse des approches, notamment quand les conditions changent (densité, météo, rareté des situations). C’est utile pour comprendre comment des modèles “généralisés” se comportent sur des distributions variées, au-delà d’un seul corpus interne.

L’“embodied AI” ne se joue pas uniquement sur la performance, mais aussi sur la capacité à expliquer, justifier et diagnostiquer des décisions en contexte. Le benchmark LingoQA: Visual Question Answering for Autonomous Driving est intéressant parce qu’il met la compréhension multimodale et le raisonnement en situation au centre de l’évaluation. Il aide à tester si des modèles savent répondre à des questions sur des scènes de conduite plutôt que simplement produire une action. Cette approche est utile pour aborder la question de la confiance et du contrôle sans se limiter à des scores de conduite.

Pour comprendre comment on passe d’une IA “qui marche en open-loop” à une IA fiable en interaction, il faut regarder le testing en boucle fermée et la génération de cas difficiles. La documentation CARLA Simulator donne une base concrète sur un simulateur largement utilisé pour entraîner, valider et stresser des systèmes de conduite autonome. Elle permet de travailler sur des scénarios rares, de contrôler l’environnement et de rendre les expériences reproductibles. C’est un bon complément quand on veut relier world models, données synthétiques et évaluation systématique.

Sur la dimension réglementaire, il est utile de comprendre comment la conduite automatisée est encadrée par des textes qui définissent précisément le périmètre d’usage et les exigences. Le document officiel UN Regulation No. 157 – Automated Lane Keeping Systems (ALKS) explicite les conditions, limites et principes de conformité pour un cas d’usage d’automatisation sur autoroute. Cette lecture rappelle que “autonome” n’est pas un bloc, mais un ensemble de fonctions et d’ODD qui conditionnent l’homologation. Elle aide à relier innovation algorithmique et réalités d’intégration produit.

Enfin, pour replacer ces avancées dans une trajectoire européenne et française, les documents de politique publique donnent un éclairage sur déploiement, interopérabilité et expérimentations. La page Connected and automated mobility permet de comprendre les priorités et chantiers côté UE, notamment sur la coopération et les services transfrontaliers. Pour le cadre national, la National strategy for automated and connected road mobility – Review and update proposals 2025–2027 éclaire les axes d’action, les enjeux de sécurité et les conditions de passage à l’échelle. Croiser ces deux niveaux aide à comprendre pourquoi la réussite ne dépend pas seulement des modèles, mais aussi des cadres d’essais, d’infrastructures et de gouvernance.