Les « world models », lorsque l’intelligence artificielle apprend à comprendre le monde

Source: The Conversation – in French – By Julien Perez, Maître de conférences – IA et apprentissage machine, EPITA

Les systèmes d’intelligence artificielle générative, qui parlent si bien, ne comprennent pas encore le monde. De nouvelles méthodes physiques ou statistiques comme les world models, ou « modèles de monde », permettraient de les doter d’une forme de sens commun, qui leur servirait à mieux simuler la réalité et de mieux interagir avec elle.

Imaginez un enfant qui, après avoir vu une balle rouler derrière un canapé, sait instinctivement qu’elle continue d’exister et peut anticiper l’endroit précis où elle réapparaîtra. Cette capacité fondamentale, que la psychologie appelle la permanence de l’objet, constitue un socle de l’intelligence humaine. Nous ne nous contentons pas de réagir aux images qui frappent notre rétine ; nous simulons en permanence le futur dans notre esprit.

Aujourd’hui, l’intelligence artificielle tente de franchir ce cap décisif. Après l’ère des modèles capables de générer du texte, comme ChatGPT, ou des images, comme Midjourney, une nouvelle frontière se dessine avec les world models (« modèles de monde »). L’enjeu est de taille : il s’agit de doter les machines d’une forme de sens commun physique, spatial et logique pour qu’elles cessent d’imiter… et commencent enfin à comprendre.

Ces modèles montrent d’ores et déjà des résultats prometteurs en laboratoire ou dans des environnements simulés. Néanmoins, leur maturité reste limitée et leur déploiement réel est encore restreint aujourd’hui.

Pourquoi les IA actuelles restent-elles en partie limitées ?

Les systèmes d’IA les plus célèbres aujourd’hui sont des modèles génératifs, à l’instar de Claude ou de ChatGPT. Ceux-ci excellent à prédire le mot suivant dans une phrase ou le pixel suivant dans une image, en s’appuyant sur des corrélations statistiques monumentales.

À partir de cette idée de base, les premières preuves mesurables de raisonnement et de bon sens fonctionnel ont été observées dans l’histoire de l’intelligence artificielle (IA). Cependant, comme le soulignent régulièrement des chercheurs du domaine, tels que Yann Le Cun, directeur scientifique d’AMI Labs ou Fei-Fei Li, directrice scientifique de Worldlabs, ces modèles n’ont pas de représentation interne cohérente de la réalité physique.

C’est ce qui explique notamment leurs fameuses hallucinations : un modèle de langage peut affirmer avec une assurance totale qu’un œuf de vache est un ingrédient de cuisine classique, simplement parce qu’il manipule des concepts sans comprendre pleinement les contraintes biologiques du monde réel. Pour dépasser ce stade de « perroquet stochastique » (« stochastique » désignant un phénomène ou un modèle qui intègre le hasard de manière structurée, comme un calcul de probabilités où l’imprévu devient une donnée clé), l’IA doit intégrer une architecture capable de modéliser les causes et les effets.

Cette ambition n’est pas nouvelle, mais elle bénéficie aujourd’hui d’un alignement technologique inédit. Dès 1943, le neuroscientifique Kenneth Craik suggérait déjà que le cerveau humain fonctionne en construisant des modèles de petite échelle de la réalité pour anticiper les événements. Ainsi, lorsque l’on traverse la rue, notre cerveau imagine d’avance la trajectoire des voitures pour savoir quand il est sûr de passer.

Ce qui a changé depuis, c’est que nous disposons de la puissance de calcul et des cadres mathématiques suffisants pour tester cette hypothèse à l’échelle de machines complexes. L’intérêt pour ces modèles a notamment explosé après les travaux pionniers de David Ha et Jürgen Schmidhuber, en 2018. Ils ont montré qu’une IA pouvait apprendre à conduire dans un environnement virtuel en s’entraînant presque exclusivement dans ses propres « rêves ». Ces « rêves » correspondent à une simulation interne, créée par l’IA elle-même, qui lui permet de tester différentes stratégies sans interagir avec le monde réel.

L’architecture des modèles de monde

Ces auteurs ont introduit la notion de « modèle de monde » : une représentation interne et structurée d’un environnement qui permet à un agent d’anticiper les conséquences de ses actions. Le modèle virtuel synthétise l’information observable pour construire une version abstraite et manipulable du monde réel, facilitant la planification, la simulation et la prise de décision, même dans des situations complexes ou incertaines. Sur le plan technique, un modèle de monde repose sur une mécanique de compression de l’information et de prédiction.

Plutôt que de se contenter d’identifier des objets comme « chat » ou « balle » après apprentissage, un modèle de monde apprend à représenter le monde de manière plus riche et structurée.

Dans un premier temps, le système observe d’énormes quantités de données et en extrait une représentation compacte des dynamiques essentielles, par exemple la trajectoire d’un objet, la rigidité d’une surface ou les interactions spatiales entre plusieurs éléments (la patte du chat qui joue avec la balle). Cette abstraction ne se limite pas à des labels : elle capture des régularités physiques et logiques du monde.

Dans un second temps, le modèle peut simuler des scénarios futurs en utilisant cette représentation (la balle passe sous un fauteuil et le chat essaye de la dégager). Ainsi, si l’agent doté du modèle de monde précédemment décrit envisage une action, elle peut prédire ses conséquences avant même de l’exécuter, dans un environnement potentiellement incertain ou bruité.

Autrement dit, contrairement à la simple classification statistique « ceci est un chat », le modèle de monde apprend une sorte de mini-simulation interne du monde, qui combine perception, compréhension spatiale et logique, et capacité à anticiper.

Ici, l’approche reste statistique, similaire à l’apprentissage par renforcement, mais sans recours direct à des modèles physiques explicites ; elle se fonde uniquement sur les régularités observées dans les données (les balles qui roulent sous les objets en ressortent ou y restent coincées). Cette distinction entre approches statistique et physique devient importante lorsqu’on aborde des environnements complexes et incertains, où les prédictions doivent intégrer la variabilité naturelle du monde réel.

Plusieurs propositions récentes illustrent le potentiel de l’approche statistique des modèles de monde. Le modèle V-JEPA de Meta apprend, par exemple, à comprendre les interactions physiques complexes en regardant simplement des vidéos, sans aucun étiquetage humain. De son côté, Google DeepMind a récemment dévoilé Genie, une architecture capable de créer des mondes virtuels interactifs à partir d’une simple photographie, prouvant que la machine a assimilé auparavant les lois de la physique et de la perspective.

Des applications qui touchent la société

Les répercussions de cette technologie sont massives et dépassent largement le cadre de l’informatique théorique.

En robotique, par exemple, un agent équipé d’un modèle du monde pourrait apprendre à manipuler des objets fragiles ou à se déplacer dans un entrepôt encombré sans passer par des milliers d’heures d’essais physiques coûteux et risqués.

Dans le secteur des véhicules autonomes, des pionniers, comme Wayve, affirment utiliser des modèles du monde pour que les voitures anticipent les comportements difficiles à prévoir des piétons ou des autres conducteurs, là où les systèmes classiques se contenteraient de réagir avec un temps de retard.

Dans le domaine de la santé, les jumeaux numériques sont encore en phase d’exploration et servent à simuler comment une maladie pourrait évoluer en réponse à un traitement expérimental. Toutefois, ces modèles ne donnent pas des prédictions certaines : ils sont dits « probabilistes », ce qui signifie qu’ils reposent sur des calculs de probabilités. Autrement dit, ils estiment plusieurs évolutions possibles d’un patient (amélioration, stabilité, aggravation) et attribuent à chacune une chance de se produire, en fonction des données disponibles et de modèles statistiques. Par conséquent, ces simulations restent des estimations, et non des certitudes. Elles doivent donc être validées avec beaucoup de rigueur, en particulier lorsqu’elles concernent des traitements qui n’ont encore jamais été testés en conditions cliniques réelles.

Les progrès de l’IA nous amènent à repenser ce que signifie réellement « comprendre » et « anticiper » dans un monde complexe. À terme, explorer ces questions pourrait non seulement transformer la technologie, mais aussi notre manière d’appréhender la cognition et la créativité humaines.

Il est important de nuancer l’enthousiasme autour de ces modèles. En dépit des avancées, celles-ci demeurent pour l’instant à l’échelle de la recherche et du développement. Par exemple, dans la robotique et les véhicules autonomes, la majorité des applications sont encore à l’état de prototypes ou de pilotes contrôlés, souvent dans des environnements très structurés.

L’adoption à grande échelle nécessitera de surmonter des défis techniques et réglementaires majeurs, comme la robustesse face à des situations imprévues ou la sécurité dans des contextes réels complexes. Ainsi, ces modèles sont en phase d’expérimentation avancée, et non opérationnels partout et tout le temps – même si leurs perspectives restent très prometteuses.

Julien Perez est membre de bpifrance, directeur de la recherche en AI.

– ref. Les « world models », lorsque l’intelligence artificielle apprend à comprendre le monde – https://theconversation.com/les-world-models-lorsque-lintelligence-artificielle-apprend-a-comprendre-le-monde-281055

MIL OSI – Global Reports –