Bien que les grands modèles de langage (LLM) soient entraînés sur des quantités gigantesques de données (textuelles pour la plupart), ils ne se livrent qu’à des prédictions à court terme, un mot après l’autre, étant donné un contexte de taille fixe. Si leur capacité à interagir de manière naturelle avec des êtres humains n’en est que plus remarquable, ce mode de fonctionnement autorégressif les condamne à une certaine myopie.
Des voix s’élèvent donc pour proposer d’autres pistes, comme les modèles du monde (WM, pour world models) dont la notoriété a crû avec le départ de Meta de Yann Le Cun pour fonder une start-up qui mise sur eux pour développer des intelligences artificielles (IA) capables d’une intelligence/autonomie comparable à celle d’un chat. Notons que les auteurs de cette Carte blanche entretiennent des liens scientifiques et économiques avec Yann Le Cun : celui-ci a par exemple investi dans leur start-up et Jean Ponce coencadre une thèse avec lui sur la planification. Cependant, les alternatives aux LLM – WM ou autres – ne peuvent être ignorées aujourd’hui, et Yann Le Cun n’est pas le seul à s’y être lancé, Fei-Fei Li, une autre star de l’IA a, elle aussi, créé une start-up sur les WM, il nous semble donc important d’en parler.
Inspirés en partie par les sciences cognitives, les adeptes des WM prônent la construction d’agents disposant d’un véritable modèle « mental » de leurs interactions avec leur environnement, appris à partir de données sensorielles leur permettant de simuler la manière dont celui-ci évolue au gré de leurs actions ou de sa dynamique naturelle, comme lors de la chute d’un objet sous l’action de la gravité.
S’affranchir des détails superflus
L’idée d’apprendre la dynamique d’un système physique à partir d’observations pour pouvoir le contrôler n’est pas nouvelle, comme le montre l’article de 1989 de Derrick Nguyen et Bernard Widrow. Il semble en revanche qu’il faille attendre 2018 et l’article de David Ha et Jürgen Schmidhuber pour voir apparaître l’expression world model dans le sens qui lui est donné ici, avec toutes ses composantes clairement identifiées : système dynamique (robot), représentation de son état par un codage de données continues (ex. : images), mémoire stockant une partie des états précédents (ex. : vidéo) et simulateur permettant de prédire à partir de ces éléments et d’une commande (ex. : tourner à gauche) l’état dans lequel il se trouvera après l’exécution de celle-ci.
Il vous reste 37% de cet article à lire. La suite est réservée aux abonnés.




