World Labs est une startup fondée en 2024 par Feifei Li, expert renommé en IA et professeur à l’Université de Stanford, pour développer des systèmes d’IA de nouvelle génération dotés d’une « intelligence spatiale ».
Depuis sa création, World Labs a complété deux tours de financement, levant environ 230 millions de dollars au total. Les principaux investisseurs incluent a16z, Radical Ventures, NEA, NVentures d'Nvidia, AMD Ventures et Intel Capital. La valorisation de l'entreprise a franchi le cap du milliard de dollars en seulement trois mois, devenant ainsi une nouvelle licorne dans le domaine de l'IA.
Récemment, Li Feifei a eu une conversation avec deux partenaires d’a16z, Martin Casado et Eric Torenberg, et elle a parlé publiquement pour la première fois de la construction du concept, de l’orientation de la recherche et de la grande vision derrière leur co-fondation de World Labs : le passé et le présent de la stratégie de la plate-forme a16z : du capital-risque « réticent à essuyer le cul » au « service full-stack ».
Li Feifei a immédiatement souligné le point central de cette conversation : "Je n'ai pas besoin que des grands modèles de langage me convainquent, le modèle du monde est vraiment la direction qui compte."
Elle souligne que l'intelligence spatiale - que ce soit dans le monde physique tridimensionnel dans lequel nous vivons ou dans l'univers numérique que nous imaginons - est une composante essentielle de l'intelligence. Et aujourd'hui, nous avons enfin la capacité de générer et de reconstruire ces univers.
▍****Une intelligence plus ancienne que le langage : perception spatiale et reconstruction 3D
Fei-Fei Li a souligné qu'en comparaison avec le langage, la perception spatiale est une capacité plus ancienne et instinctive dans le processus d'évolution humaine. Elle a partagé une expérience personnelle : il y a quelques années, elle a perdu temporairement sa vision stéréoscopique à cause d'une blessure à la cornée, et pendant cette période, elle n'osait pas conduire seule, même sur des routes familières, car il lui était difficile d'évaluer la distance avec les autres véhicules.
Cette expérience expérimentale lui a permis de comprendre profondément le rôle fondamental des systèmes de perception 3D dans l'action humaine. Pour l'IA, si un modèle du monde en 3D ne peut pas être établi, il ne sera pas possible de véritablement comprendre, manipuler ou reconstruire le monde réel.
Martin Casado ajoute que ce manque d’intelligence tridimensionnelle est l’une des principales raisons pour lesquelles les robots et les systèmes d’intelligence incarnée ont été lents à atterrir. Il utilise l’exemple d’un profane pour expliquer que si vous emmenez une personne dans une pièce étrange, lui bandez les yeux, décrivez l’espace avec des mots seulement, puis le laissez accomplir la tâche, c’est presque impossible. Une fois les yeux ouverts, le cerveau reconstruit automatiquement le modèle spatial et termine l’action. Ce type de capacité de reconstruction est complètement absent des modèles de langage dominants actuels.
▍****Du NeRF au point critique technologique du modèle mondial
En parlant des raisons pour lesquelles il a choisi de fonder World Labs à ce moment-là, Fei-Fei Li estime que c'est le résultat d'une recherche académique à long terme et d'une accumulation de bases industrielles.
Elle se souvient qu’il y a quatre ans, une percée de recherche appelée NeRF (Neural Radiance Field) a ouvert une toute nouvelle voie pour la modélisation de la vision 3D. Le proposant de NeRF n’est autre que Ben Mildenhall, l’un des co-fondateurs actuels de World Labs.
L'autre fondateur, Christopher, a mené des recherches novatrices sur la représentation tridimensionnelle efficace, favorisant le retour de la modélisation 3D volumétrique dans l'industrie.
Avec Justin Johnson, qui a appliqué plus tôt la technologie GAN à la transformation de style d'image, ces résultats de recherche éparpillés sont maintenant intégrés au sein de la même équipe, autour d'un objectif "étoile du nord" : construire la capacité des modèles du monde AI.
Martin a résumé cet objectif en une profonde intégration de deux systèmes : d'une part, les modèles d'IA, les données et l'architecture elle-même, et d'autre part, le système d'ingénierie de rendu graphique et de reconstruction spatiale. Permettre à des experts de ces deux mondes de collaborer efficacement sur une seule plateforme constitue en soi une innovation organisationnelle importante dans l'industrie technologique.
▍****Le modèle linguistique n'est pas la fin, mais le prologue
Fei-Fei Li souligne que sa foi dans les modèles du monde ne provient pas d'une déception envers les LLM, mais d'une compréhension plus approfondie de la nature de l'intelligence.
Elle a souligné que le langage est un mode de cognition « à compression avec perte », qui abstrait le monde mais perd également la richesse des informations physiques et perceptuelles. Dans le monde réel, il n’y a pas de mots, de grammaire et de texte, seulement de la physique, du mouvement et une structure tridimensionnelle.
Cette perception a également changé sa perception de ce à quoi devrait ressembler une entreprise d’IA. Elle est passée du statut de professeur à celui d’entrepreneure parce qu’elle s’est rendu compte que la recherche universitaire ne suffisait pas à elle seule à modéliser l’intelligence spatiale : elle nécessitait des investissements dans l’informatique industrielle, la planification de l’architecture au niveau du système et la capacité de collaboration des meilleurs talents transfrontaliers.
Et tout cela ne peut véritablement se concrétiser que dans une entreprise d'un degré d'organisation très élevé et d'une capacité de collaboration en ingénierie full-stack exceptionnelle.
▍****Les applications intelligentes dans l'espace dépassent de loin celles des robots
Pour la plupart des gens, le "modèle mondial" reste un terme scientifique abstrait. Mais Fei-Fei Li et Martin soulignent que son application va bien au-delà de la conduite autonome et de la robotique.
La créativité est intrinsèquement visuelle. Le design industriel, la réalisation de films, la composition architecturale et même le développement de jeux reposent tous sur la construction et le contrôle 3D. Et si l’IA a la capacité de modéliser le monde, elle peut non seulement « comprendre » le monde 3D, mais aussi « générer » et « manipuler » l’espace virtuel.
Martin a décrit que, avec juste une photo d'une table, le modèle peut déduire la forme et le matériau derrière, puis construire une scène spatiale complète. Sur cette base, les utilisateurs peuvent même mesurer, ajouter, supprimer ou redessiner l'espace. C'est une méthode d'interaction homme-machine plus intuitive et libre que les instructions écrites, ouvrant de nouvelles dimensions pour le design, la création et les expériences de simulation.
Fei-Fei Li a suggéré que l'espace numérique offre une occasion de transformation sans précédent : "L'humanité a jusqu'à présent vécu uniquement dans un monde physique tridimensionnel. Mais le monde numérique nous permettra pour la première fois d'entrer dans un 'multivers'."
Elle a cité plusieurs exemples : certains univers sont construits spécialement pour les robots, d'autres servent à la créativité humaine, et certains sont utilisés pour raconter, communiquer et vivre des voyages. Ces espaces, qui n'existaient auparavant que dans l'imagination, seront désormais réellement générés et compris, utilisés et transformés par des machines.
▍****Modélisation panoramique 3D dans le cadre du modèle de base
Revenant à la technique elle-même, Fei-Fei Li souligne que World Labs ne vise pas seulement à créer une IA « capable de voir », mais à faire en sorte que l'IA comprenne la structure tridimensionnelle, la dynamique et la logique combinatoire du monde. Cela ne constitue pas seulement un problème d'ingénierie plus difficile, mais aussi une toute nouvelle philosophie de représentation.
Elle pense que des découvertes scientifiques comme la structure en double hélice de l'ADN ou les buckyballs sont le fruit de l'intelligence spatiale. Il est impossible de déduire ce type de construction géométrique uniquement par le langage. C'est aussi pourquoi les modèles du monde peuvent non seulement améliorer la capacité de compréhension des machines, mais aussi ouvrir de nouvelles voies de création pour la science et l'art humains.
Martin a résumé que la révolution apportée par les LLM prouve un fait : lorsque nous trouvons la bonne structure de données et la bonne représentation du modèle, les capacités de l'IA explosent de manière exponentielle. Maintenant, ils croient que le "modèle du monde" se trouve à un point critique similaire.
▍****Comprendre et construire la clé du monde
"Nous marchons en réalité à reculons sur le chemin de l'évolution." Martin a soulevé ce point de vue, et toute la conversation a également pris une dimension philosophique.
Le langage est l’un des derniers modules de l’évolution du cerveau humain, tandis que les systèmes de perception spatiale existent depuis l’époque des arthropodes et existent depuis 500 millions d’années. L’IA d’aujourd’hui, si elle ne fait qu'« apprendre la langue », ne peut pas vraiment s’appeler « comprendre le monde ». Ce n’est qu’en construisant un modèle spatial semblable à celui de l’homme que l’IA peut vraiment franchir la porte de l'« intelligence incarnée ».
Li Feifei résuma avec son ton ferme habituel : « J’attendais ce jour. Ce n’est pas parce que je ne crois pas aux modèles de langage, mais parce que je sais que le monde réel n’est pas fait de texte. ”
Le modèle mondial est la clé qui permet à l'IA de vraiment comprendre et de construire ce monde. I/O à iO, Jony Ive va propulser un nouveau mouvement de design - l'IA réécrit le paradigme de calcul et la définition du matériel, et c'est aussi un nouveau champ de bataille après les grands modèles.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Conversation avec a16z : LLM est une compression avec perte, le modèle mondial est la véritable direction.
World Labs est une startup fondée en 2024 par Feifei Li, expert renommé en IA et professeur à l’Université de Stanford, pour développer des systèmes d’IA de nouvelle génération dotés d’une « intelligence spatiale ».
Depuis sa création, World Labs a complété deux tours de financement, levant environ 230 millions de dollars au total. Les principaux investisseurs incluent a16z, Radical Ventures, NEA, NVentures d'Nvidia, AMD Ventures et Intel Capital. La valorisation de l'entreprise a franchi le cap du milliard de dollars en seulement trois mois, devenant ainsi une nouvelle licorne dans le domaine de l'IA.
Récemment, Li Feifei a eu une conversation avec deux partenaires d’a16z, Martin Casado et Eric Torenberg, et elle a parlé publiquement pour la première fois de la construction du concept, de l’orientation de la recherche et de la grande vision derrière leur co-fondation de World Labs : le passé et le présent de la stratégie de la plate-forme a16z : du capital-risque « réticent à essuyer le cul » au « service full-stack ».
Li Feifei a immédiatement souligné le point central de cette conversation : "Je n'ai pas besoin que des grands modèles de langage me convainquent, le modèle du monde est vraiment la direction qui compte."
Elle souligne que l'intelligence spatiale - que ce soit dans le monde physique tridimensionnel dans lequel nous vivons ou dans l'univers numérique que nous imaginons - est une composante essentielle de l'intelligence. Et aujourd'hui, nous avons enfin la capacité de générer et de reconstruire ces univers.
▍****Une intelligence plus ancienne que le langage : perception spatiale et reconstruction 3D
Fei-Fei Li a souligné qu'en comparaison avec le langage, la perception spatiale est une capacité plus ancienne et instinctive dans le processus d'évolution humaine. Elle a partagé une expérience personnelle : il y a quelques années, elle a perdu temporairement sa vision stéréoscopique à cause d'une blessure à la cornée, et pendant cette période, elle n'osait pas conduire seule, même sur des routes familières, car il lui était difficile d'évaluer la distance avec les autres véhicules.
Cette expérience expérimentale lui a permis de comprendre profondément le rôle fondamental des systèmes de perception 3D dans l'action humaine. Pour l'IA, si un modèle du monde en 3D ne peut pas être établi, il ne sera pas possible de véritablement comprendre, manipuler ou reconstruire le monde réel.
Martin Casado ajoute que ce manque d’intelligence tridimensionnelle est l’une des principales raisons pour lesquelles les robots et les systèmes d’intelligence incarnée ont été lents à atterrir. Il utilise l’exemple d’un profane pour expliquer que si vous emmenez une personne dans une pièce étrange, lui bandez les yeux, décrivez l’espace avec des mots seulement, puis le laissez accomplir la tâche, c’est presque impossible. Une fois les yeux ouverts, le cerveau reconstruit automatiquement le modèle spatial et termine l’action. Ce type de capacité de reconstruction est complètement absent des modèles de langage dominants actuels.
▍****Du NeRF au point critique technologique du modèle mondial
En parlant des raisons pour lesquelles il a choisi de fonder World Labs à ce moment-là, Fei-Fei Li estime que c'est le résultat d'une recherche académique à long terme et d'une accumulation de bases industrielles.
Elle se souvient qu’il y a quatre ans, une percée de recherche appelée NeRF (Neural Radiance Field) a ouvert une toute nouvelle voie pour la modélisation de la vision 3D. Le proposant de NeRF n’est autre que Ben Mildenhall, l’un des co-fondateurs actuels de World Labs.
L'autre fondateur, Christopher, a mené des recherches novatrices sur la représentation tridimensionnelle efficace, favorisant le retour de la modélisation 3D volumétrique dans l'industrie.
Avec Justin Johnson, qui a appliqué plus tôt la technologie GAN à la transformation de style d'image, ces résultats de recherche éparpillés sont maintenant intégrés au sein de la même équipe, autour d'un objectif "étoile du nord" : construire la capacité des modèles du monde AI.
Martin a résumé cet objectif en une profonde intégration de deux systèmes : d'une part, les modèles d'IA, les données et l'architecture elle-même, et d'autre part, le système d'ingénierie de rendu graphique et de reconstruction spatiale. Permettre à des experts de ces deux mondes de collaborer efficacement sur une seule plateforme constitue en soi une innovation organisationnelle importante dans l'industrie technologique.
▍****Le modèle linguistique n'est pas la fin, mais le prologue
Fei-Fei Li souligne que sa foi dans les modèles du monde ne provient pas d'une déception envers les LLM, mais d'une compréhension plus approfondie de la nature de l'intelligence.
Elle a souligné que le langage est un mode de cognition « à compression avec perte », qui abstrait le monde mais perd également la richesse des informations physiques et perceptuelles. Dans le monde réel, il n’y a pas de mots, de grammaire et de texte, seulement de la physique, du mouvement et une structure tridimensionnelle.
Cette perception a également changé sa perception de ce à quoi devrait ressembler une entreprise d’IA. Elle est passée du statut de professeur à celui d’entrepreneure parce qu’elle s’est rendu compte que la recherche universitaire ne suffisait pas à elle seule à modéliser l’intelligence spatiale : elle nécessitait des investissements dans l’informatique industrielle, la planification de l’architecture au niveau du système et la capacité de collaboration des meilleurs talents transfrontaliers.
Et tout cela ne peut véritablement se concrétiser que dans une entreprise d'un degré d'organisation très élevé et d'une capacité de collaboration en ingénierie full-stack exceptionnelle.
▍****Les applications intelligentes dans l'espace dépassent de loin celles des robots
Pour la plupart des gens, le "modèle mondial" reste un terme scientifique abstrait. Mais Fei-Fei Li et Martin soulignent que son application va bien au-delà de la conduite autonome et de la robotique.
La créativité est intrinsèquement visuelle. Le design industriel, la réalisation de films, la composition architecturale et même le développement de jeux reposent tous sur la construction et le contrôle 3D. Et si l’IA a la capacité de modéliser le monde, elle peut non seulement « comprendre » le monde 3D, mais aussi « générer » et « manipuler » l’espace virtuel.
Martin a décrit que, avec juste une photo d'une table, le modèle peut déduire la forme et le matériau derrière, puis construire une scène spatiale complète. Sur cette base, les utilisateurs peuvent même mesurer, ajouter, supprimer ou redessiner l'espace. C'est une méthode d'interaction homme-machine plus intuitive et libre que les instructions écrites, ouvrant de nouvelles dimensions pour le design, la création et les expériences de simulation.
Fei-Fei Li a suggéré que l'espace numérique offre une occasion de transformation sans précédent : "L'humanité a jusqu'à présent vécu uniquement dans un monde physique tridimensionnel. Mais le monde numérique nous permettra pour la première fois d'entrer dans un 'multivers'."
Elle a cité plusieurs exemples : certains univers sont construits spécialement pour les robots, d'autres servent à la créativité humaine, et certains sont utilisés pour raconter, communiquer et vivre des voyages. Ces espaces, qui n'existaient auparavant que dans l'imagination, seront désormais réellement générés et compris, utilisés et transformés par des machines.
▍****Modélisation panoramique 3D dans le cadre du modèle de base
Revenant à la technique elle-même, Fei-Fei Li souligne que World Labs ne vise pas seulement à créer une IA « capable de voir », mais à faire en sorte que l'IA comprenne la structure tridimensionnelle, la dynamique et la logique combinatoire du monde. Cela ne constitue pas seulement un problème d'ingénierie plus difficile, mais aussi une toute nouvelle philosophie de représentation.
Elle pense que des découvertes scientifiques comme la structure en double hélice de l'ADN ou les buckyballs sont le fruit de l'intelligence spatiale. Il est impossible de déduire ce type de construction géométrique uniquement par le langage. C'est aussi pourquoi les modèles du monde peuvent non seulement améliorer la capacité de compréhension des machines, mais aussi ouvrir de nouvelles voies de création pour la science et l'art humains.
Martin a résumé que la révolution apportée par les LLM prouve un fait : lorsque nous trouvons la bonne structure de données et la bonne représentation du modèle, les capacités de l'IA explosent de manière exponentielle. Maintenant, ils croient que le "modèle du monde" se trouve à un point critique similaire.
▍****Comprendre et construire la clé du monde
"Nous marchons en réalité à reculons sur le chemin de l'évolution." Martin a soulevé ce point de vue, et toute la conversation a également pris une dimension philosophique.
Le langage est l’un des derniers modules de l’évolution du cerveau humain, tandis que les systèmes de perception spatiale existent depuis l’époque des arthropodes et existent depuis 500 millions d’années. L’IA d’aujourd’hui, si elle ne fait qu'« apprendre la langue », ne peut pas vraiment s’appeler « comprendre le monde ». Ce n’est qu’en construisant un modèle spatial semblable à celui de l’homme que l’IA peut vraiment franchir la porte de l'« intelligence incarnée ».
Li Feifei résuma avec son ton ferme habituel : « J’attendais ce jour. Ce n’est pas parce que je ne crois pas aux modèles de langage, mais parce que je sais que le monde réel n’est pas fait de texte. ”
Le modèle mondial est la clé qui permet à l'IA de vraiment comprendre et de construire ce monde. I/O à iO, Jony Ive va propulser un nouveau mouvement de design - l'IA réécrit le paradigme de calcul et la définition du matériel, et c'est aussi un nouveau champ de bataille après les grands modèles.