Translation 2.0: From Word Models to World Models

AI inside

Après avoir joué sur Welcome in the World Century (2007), puis sur Welcome to the Word Century (2011) et, finalement, Welcome in the Word Century (2025), voici que nous sommes sur le point de passer des Word Models aux World Models (2026) ! Et c'est loin d'être un jeu de mots...

Ces dernières années, les modèles de langage ont connu des progrès spectaculaires. Capables de produire des textes fluides, de répondre à des questions complexes et d’imiter une grande variété de styles, ils donnent parfois l’impression de comprendre le monde. Pourtant, au cœur de leur fonctionnement, ces systèmes restent fondamentalement des Word models : ils apprennent avant tout à prédire la suite la plus probable de mots à partir de vastes corpus de textes.

Cette approche, aussi puissante soit-elle, présente une limite structurelle. Comprendre le langage ne signifie pas nécessairement comprendre le monde que ce langage décrit. Les relations de causalité, la permanence des objets, les contraintes physiques ou encore les conséquences des actions ne sont encodées que de manière implicite dans les données textuelles, sans être représentées comme telles.

Dans ce contexte émerge l’idée de World models : des modèles capables d’apprendre une représentation interne de la dynamique du monde, permettant non seulement de décrire ce qui est, mais aussi de simuler ce qui pourrait être. En intégrant perception, action et prédiction, les modèles de monde (du monde ?) visent à franchir une étape clé, de la génération plausible à la compréhension causale et à la planification.

Ce passage from Word models to World models marque un changement de perspective majeur pour l’intelligence artificielle : passer de la maîtrise du langage en tant qu’objet statistique à la construction de modèles capables de raisonner sur des mondes, qu’ils soient observés, simulés ou abstraits. Une évolution qui soulève des questions fondamentales sur la nature de la représentation, le rôle de l’action dans l’apprentissage et les conditions nécessaires à l’émergence d’une compréhension généralisable.

Ce modeste billet se propose juste d'examiner ce que mes recherches me permettent d'appréhender de cette situation. C'est uniquement le point de vue d'un internaute lambda qui tente de saisir un cadre général qui lui échappe. Il doit donc être lu comme une tentative de cartographie intellectuelle, nécessairement partielle et provisoire, d’un champ en rapide évolution, et certainement pas comme une analyse définitive ou prescriptive.

Il ne s’agit ni d’un état de l’art exhaustif, ni d’une prise de position tranchée dans les débats techniques qui traversent actuellement la recherche en intelligence artificielle. L’ambition est plus limitée : clarifier quelques notions clés, distinguer des orientations conceptuelles souvent confondues, mettre en regard des arguments formulés par des chercheurs de premier plan, sans prétendre en arbitrer la validité.

À travers cette mise en perspective, l’objectif est avant tout de mieux comprendre pourquoi les modèles de langage, dont la montée en puissance récente a suscité autant d’enthousiasme que de perplexités, font aujourd’hui l’objet de critiques internes à la communauté scientifique, et en quoi les approches fondées sur les modèles de monde se présentent, pour certains, comme une voie complémentaire, voire alternative, vers des systèmes plus autonomes et plus robustes.

Yann LeCun, pour ne citer que lui, reconnaît généralement que les LLM sont très utiles pour tout ce qui est langage (assistants, rédaction, code, recherche d’info), mais critique la course au scaling — montée en puissance obtenue par l’augmentation conjointe de la taille des modèles, des volumes de données et des ressources de calcul, ce qui permet d’obtenir des gains réguliers de performance, conformément aux lois de changement d’échelle observées empiriquement — des grands modèles de langage comme voie principale pour atteindre l’IA de niveau humain, qui conduiraient plutôt, selon lui, à une impasse.

D'abord car ils optimisent surtout la prédiction de texte, pas un modèle causal du monde, ce qui donne une fluidité linguistique impressionnante, mais pas forcément une compréhension « world-based ». Ensuite parce qu’il dénombre quatre briques manquantes :

monde physique,
mémoire,
raisonnement,
planification.

1. La compréhension du monde physique

Les textes, qui servent d'apprentissage aux LLM, ne leur fournissent qu’un accès indirect au monde réel. Ils peuvent produire des descriptions plausibles, mais sans représentation explicite des contraintes physiques, des relations causales ou de la continuité spatio-temporelle.

2. La mémoire persistante

Ces modèles ne disposent pas d’une mémoire durable intégrée. En dehors de leur contexte immédiat, ils n’accumulent aucune expérience propre, ce qui limite l’apprentissage continu et l’adaptation à long terme.

3. Le raisonnement

Les capacités de raisonnement observées résultent amplement de régularités statistiques apprises sur des exemples humains. Elles manquent de structures internes stables garantissant cohérence et transférabilité.

4. La planification hiérarchique

Les LLM ne planifient pas nativement sur de longues échelles de temps. Ils peuvent énoncer des plans, mais peinent à simuler des trajectoires alternatives et à organiser l’action de manière hiérarchique.

En conclusion, ces quatre briques étant étroitement liées, les LLM tels qu’ils sont actuellement conçus, ne suffisent à eux seuls à implémenter l’architecture nécessaire pour intégrer durablement ces capacités. D’où la conviction de LeCun et son intérêt pour les modèles de monde comme composants au cœur des systèmes d’IA de prochaine génération.

Et sa proposition de World models appris sur des signaux riches (ex. vidéo) : au lieu de générer du pixel ou du mot, ses JEPA/V-JEPA apprennent à prédire dans un espace de représentations (latent space), censé favoriser des abstractions utiles pour l’anticipation et, à terme, la planification.

Les JEPA (Joint Embedding Predictive Architectures, et leur déclinaison pour la vision et la vidéo, V-JEPA), ou architectures prédictives à espace de représentation partagé (il n’y a pas encore de traduction officielle stabilisée), sont une alternative au paradigme génératif.

Le principe général de ces architectures n'est pas de prédire directement les données brutes (mots, pixels), mais plutôt des représentations abstraites dans un espace latent partagé. Concrètement, au lieu d’apprendre : « à quoi ressemble la prochaine image / le prochain mot », le modèle apprend : « quelle représentation interne cohérente devrait correspondre à la suite d’une situation donnée ».

Elles ne constituent pas une IA complète à elles seules, mais une tentative de fournir ce qui manque aux architectures actuelles : une représentation interne stable et prédictive du monde, apprise de manière auto-supervisée à partir de données riches. Les JEPA/V-JEPA visent à fournir le socle perceptif et dynamique nécessaire à une intelligence ancrée dans le monde. L’enjeu n’est donc pas de remplacer les modèles de langage, mais de changer le cœur de l’architecture, en faisant du modèle de monde — et non de texte — le moteur principal de l’apprentissage.

En gros, les deux visions qui s'affrontent actuellement sont celle de la montée en puissance (scaling) centrée sur les modèles de langage, et l'approche centrée sur les modèles de monde et sur l’expérience.

En réalité, la quasi-totalité des acteurs majeurs de l’IA (OpenAI, Google DeepMind, Anthropic, xAI, Meta et, bisn sûr, Nvidia) adoptent aujourd’hui une stratégie de montée en puissance centrée sur les modèles de langage : augmentation du calcul, des données et de la taille des modèles constitue toujours le levier principal du progrès.

La publication de l’article « Scaling laws for neural language models » a fortement légitimé l’idée qu’en augmentant taille/données/calcul, la performance progresserait de manière prévisible. Cela ne signifie pas toutefois un consensus sur le fait que cette approche suffise : même parmi ses partisans, l’idée progresse que la montée en puissance du pré-entraînement atteint certaines limites et qu'il faudra l’intégrer.

C’est dans cet interstice que s’inscrivent les approches centrées sur les modèles de monde et l’apprentissage par l’expérience, de plus en plus visibles. Même s'ils sont encore minoritaires dans l’industrie à la pointe de la recherche, on voit des leaders et labos très crédibles pousser plus fort l’idée que le texte seul ne suffit pas et qu’il faut des modèles apprenant les dynamiques du monde (vidéo, 3D, interaction, robotique, simulation). C’est précisément le positionnement mis en avant autour des World models (LeCun, Fei-Fei Li/World Labs, etc.).

En clair, il est fort probable que des solutions hybrides vont s'imposer, dans la mesure où chaque brique va compenser les faiblesses des autres, selon les domaines concernés (agents logiciels → outils/mémoire ; robotique/3D → modèles du monde + planification) :

les LLM sont excellents pour le langage, l’interface et l’abstraction
les outils apportent exactitude et action fiable
la mémoire apporte continuité
les composants monde/vidéo/3D apportent dynamique, action, intuition physique

Selon l'IA, aujourd’hui l’hybride ressemble à ça :

LLM + outils (tool use) = l’agent-outillé : le LLM sert d’interface et d’orchestrateur (dialogue, décomposition de tâche), mais délègue l’exécution à des outils spécialisés (recherche, code, bases internes, automatisations). Cela devient un axe explicite chez les acteurs majeurs.
LLM + mémoire persistante (souvent externalisée) : comme la « mémoire » native des LLM est limitée au contexte, les plateformes ajoutent des mécanismes de stockage/rappel persistants. Anthropic, par exemple, documente un memory tool côté agents.
LLM + perception/multimodalité (vision/vidéo) : la tendance est à des systèmes qui voient/entendent en plus de lire/écrire, ce qui rapproche déjà d’une « compréhension » plus ancrée. Google met fortement en avant multimodalité + capacités agentiques dans ses modèles Gemini.
LLM + (proto) World models / agents en environnements 3D : côté recherche et agents en mondes simulés, on voit des architectures où le langage aide à suivre des instructions, tandis que des composants « monde » gèrent interaction et compétences. Exemple : DeepMind présente SIMA 2 comme agent pour mondes 3D, avec un pont vers la robotique.
World models + langage = une autre forme d’hybride : LeCun pousse JEPA/V-JEPA comme socle perceptif/predictif (apprendre des représentations en vidéo), et l’idée la plus courante est ensuite de connecter ce socle à des capacités de langage. Meta présente JEPA comme visant des « modèles internes du monde ».

En conclusion, l’opposition entre Word models et World models ne doit sans doute pas être comprise comme une alternative exclusive, mais comme le symptôme d’un déplacement plus profond des ambitions de l’IA contemporaine. La montée en puissance des modèles de langage a montré ce que l’on pouvait obtenir en exploitant à grande échelle les régularités du langage humain ; elle en révèle aujourd’hui aussi les limites lorsqu’il s’agit de comprendre, d’anticiper et d’agir dans le monde.

Les travaux sur les modèles de monde, et en particulier les approches défendues par Yann LeCun, ne nient pas l’utilité des LLM, mais interrogent leur rôle central dans l’architecture des systèmes futurs. Ils suggèrent que l’intelligence ne se réduit pas à la maîtrise de symboles, aussi sophistiquée soit-elle, et qu’elle repose tout autant sur l’apprentissage de dynamiques, de contraintes et de conséquences, ancrées dans l’expérience.

Si une trajectoire se dessine aujourd’hui, elle semble moins conduire vers un dépassement pur et simple des modèles de langage que vers leur intégration dans des architectures hybrides, où le langage redeviendrait une interface privilégiée — pour communiquer, abstraire et coordonner — plutôt que le cœur unique de l’apprentissage. Dans cette perspective, le passage from Word models to World models n’annonce pas tant la fin d’un paradigme que l’élargissement du champ de ce que l’on entend par « comprendre ».

P.S. Pour approfondir...

Ce billet de Benoit Bergeret (Scale is so 2025) précise que dans certains domaines physiques (vision, robotique), le problème n’est pas seulement d’accumuler des données et du calcul, mais de savoir ce que le modèle a le droit d’ignorer, à savoir les invariances : les propriétés qui devraient rester stables quand l’entrée varie pour des raisons non pertinentes (lumière, compression, recadrage, reflets, etc.).

Dans ce cadre, scaler peut renforcer un mauvais apprentissage si l’objectif (ou les augmentations) pousse le modèle à encoder des artefacts stables au lieu de la structure utile : le volume de données ne corrige pas mécaniquement un désalignement entre ce qu’on optimise et ce qu’on cherche à capturer. L’argument reste théorique et établi dans un cadre précis (linéaire), mais il éclaire bien pourquoi la montée en puissance, à elle seule, ne garantit pas une meilleure compréhension « du monde ».

Pages

jeudi 1 janvier 2026

From Word Models to World Models

Aucun commentaire:

Enregistrer un commentaire