World Labs es una startup fundada en 2024 por la reconocida experta en inteligencia artificial y profesora de la Universidad de Stanford, Fei-Fei Li, que se dedica al desarrollo de sistemas de inteligencia artificial de próxima generación con "inteligencia espacial".
Desde su creación, World Labs ha completado dos rondas de financiación por un total aproximado de 230 millones de dólares. Entre los principales inversores se encuentran a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures e Intel Capital, entre otros. La valoración de la empresa superó los 1.000 millones de dólares en solo tres meses, lo que la convierte en un nuevo unicornio en el espacio de la IA.
Recientemente, Li Feifei tuvo una conversación con dos socios de a16z, Martin Casado y Eric Torenberg, y habló públicamente por primera vez sobre la construcción del concepto, la dirección de investigación y la gran visión detrás de su cofundación de World Labs: el pasado y el presente de la estrategia de la plataforma a16z: de VC "reacio a limpiar traseros" a "servicio full-stack".
Li Feifei señaló desde el principio el punto central de esta conversación: "No necesito que un gran modelo de lenguaje me convenza, el modelo del mundo es realmente la dirección importante."
Ella enfatiza que la inteligencia espacial, ya sea en el mundo físico tridimensional en el que vivimos o en el universo digital que imaginamos, es una parte indispensable de la inteligencia. Y hoy, finalmente tenemos la capacidad de generar y reconstruir esos universos.
▍****Inteligencia más antigua que el lenguaje: percepción espacial y reconstrucción tridimensional
Li Feifei señaló que, en comparación con el lenguaje, la percepción espacial es una habilidad más antigua e instintiva en el proceso de la evolución humana. Compartió una experiencia personal: hace unos años, debido a una lesión en la córnea que le provocó una breve pérdida de la visión estereoscópica, durante ese tiempo, tenía miedo de conducir sola, incluso en una calle conocida, y le resultaba difícil calcular la distancia con el coche de al lado.
Esta experiencia experimental le hizo darse cuenta profundamente del papel fundamental que tiene el sistema de percepción tridimensional en la acción humana. Y para la IA, si no puede establecer un modelo del mundo tridimensional, no podrá entender, operar o reconstruir realmente el mundo real.
Martín Casado añade que esta falta de inteligencia tridimensional es una de las principales razones por las que los robots y los sistemas de inteligencia incorporados han tardado en aterrizar. Utiliza el ejemplo de un profano para explicar que si llevas a una persona a una habitación extraña, le vendas los ojos, describes el espacio solo con palabras y luego le dejas completar la tarea, es casi imposible. Una vez que se abren los ojos, el cerebro reconstruye automáticamente el modelo espacial y completa la acción. Este tipo de capacidad de reconstrucción está completamente ausente en los modelos lingüísticos dominantes actuales.
▍****Del NeRF al punto crítico tecnológico del modelo mundial
Al hablar sobre por qué decidió fundar World Labs en este momento, Fei-Fei Li cree que es el resultado de una acumulación de investigación académica a largo plazo y de una base industrial.
Recuerda que hace cuatro años, un avance de investigación llamado NeRF (Neural Radiance Field) abrió una vía completamente nueva para el modelado de visión en 3D. El proponente de NeRF no es otro que Ben Mildenhall, uno de los actuales cofundadores de World Labs.
El otro fundador, Christopher, realizó una investigación pionera en la representación tridimensional eficiente, impulsando el regreso de la modelación 3D volumétrica en la industria.
Además, con Justin Johnson, quien aplicó la tecnología GAN en la transferencia de estilo de imágenes en sus primeras etapas, estos resultados de investigación dispersos ahora se integran en el mismo equipo, en torno a un objetivo "estrella polar": construir la capacidad de modelo del mundo de la IA.
Martin resumió este objetivo en la profunda fusión de dos sistemas: uno es el modelo de IA, los datos y la arquitectura en sí, y el otro es el sistema de ingeniería de renderizado gráfico y reconstrucción espacial. Permitir que los expertos de estos dos mundos colaboren de manera eficiente en una plataforma es en sí mismo una importante innovación organizativa en la industria tecnológica.
▍****Los modelos de lenguaje no son el destino, sino el prólogo
Li Feifei enfatizó que su fe en el modelo del mundo no proviene de la decepción hacia los LLM, sino de una comprensión más profunda de la naturaleza de la inteligencia.
Ella señaló que el lenguaje es una forma de "compresión dañina" de la cognición, abstrae el mundo, pero también pierde información física y perceptual rica. El verdadero mundo real no tiene palabras, gramática ni texto, solo física, movimiento y estructura tridimensional.
Esta percepción también ha cambiado su percepción de cómo debería ser una empresa de IA. Pasó de ser una profesora de Stanford a una empresaria porque se dio cuenta de que la investigación académica por sí sola no era suficiente para modelar la inteligencia espacial, sino que requería inversión en computación industrial, programación de arquitectura a nivel de sistema y la capacidad de colaboración de los mejores talentos transfronterizos.
Y todo esto solo puede materializarse en una empresa con un alto grado de organización y una destacada capacidad de colaboración en ingeniería de pila completa.
▍****Las aplicaciones inteligentes en el espacio superan con creces a los robots
Para la mayoría de las personas, "modelo del mundo" sigue siendo un término científico abstracto. Pero Fei-Fei Li y Martin señalan que su aplicación va mucho más allá de la conducción autónoma y la robótica.
La creatividad, en esencia, es visual. El diseño industrial, la producción de películas, la composición arquitectónica e incluso el desarrollo de juegos dependen completamente de la construcción y manipulación tridimensional. Y si la IA tiene la capacidad de modelar el mundo, no solo podrá "entender" el mundo tridimensional, sino también "generar" y "operar" en el espacio virtual.
Martin describe que con solo una fotografía de una mesa, el modelo puede deducir la forma y el material detrás de ella para construir una escena espacial completa. Además de eso, los usuarios pueden incluso medir, agregar, eliminar o rediseñar el espacio. Esta es una forma más intuitiva y libre de interacción humano-computadora que los comandos de texto, y también abre una dimensión completamente nueva de experimentación de diseño, creación y simulación.
Li Feifei propuso además que el espacio digital está ofreciendo una oportunidad de transformación sin precedentes: "La humanidad hasta ahora solo ha vivido en un mundo físico tridimensional. Pero el mundo digital nos permitirá entrar por primera vez en un 'multiverso'."
Ella enumeró varios ejemplos: algunos universos están construidos específicamente para robots, otros sirven a la creatividad humana, y algunos se utilizan para contar, comunicarse y experimentar viajes. Estos espacios que antes solo existían en la imaginación, ahora serán realmente generados y serán entendidos, utilizados y transformados por máquinas.
▍****Modelo básico en la próxima batalla, modelado panorámico en 3D
Volviendo a la tecnología en sí, Fei-Fei Li enfatiza que World Labs no solo busca crear una IA que "vea", sino que quiere que la IA comprenda la estructura tridimensional del mundo, la dinámica y la lógica combinatoria. Esto no solo es un problema de ingeniería más difícil, sino también una nueva filosofía de representación.
Ella cree que los descubrimientos científicos como la estructura de doble hélice del ADN y la esfera bucky son el resultado de la inteligencia espacial. Es imposible derivar tales geometrías puramente por el lenguaje. Es por eso que el modelo mundial no solo puede mejorar la capacidad de comprensión de las máquinas, sino también abrir nuevos caminos creativos para la ciencia y el arte humanos.
Martin resumió que la revolución traída por LLM demuestra un hecho: cuando encontramos la estructura de datos y la representación del modelo correctas, la mejora de la capacidad de IA se disparará exponencialmente. Ahora, creen que el "modelo del mundo" está en un punto crítico similar.
▍****La llave para entender y construir el mundo
"En realidad, estamos retrocediendo en el camino de la evolución." Martin planteó este punto de vista y toda la conversación alcanzó un nivel filosófico.
El lenguaje es uno de los últimos módulos en la evolución del cerebro humano, mientras que los sistemas de percepción espacial han existido desde la época de los artrópodos y han existido durante 500 millones de años. La IA de hoy, si solo "aprende el idioma", no puede llamarse realmente "entender el mundo". Solo mediante la construcción de un modelo espacial similar al humano, la IA puede realmente entrar por la puerta de la "inteligencia encarnada".
Li Feifei resumió con su habitual tono firme: “He estado esperando este día. No porque no crea en los modelos de lenguaje, sino porque sé bien: el verdadero mundo no está constituido por texto.”
El modelo mundial es la clave para permitir que la IA comprenda y construya realmente el mundo. De I/O a iO, Jony Ive impulsará un nuevo movimiento de diseño: la IA está reescribiendo los paradigmas informáticos y las definiciones de hardware, y también es un nuevo campo de batalla detrás de los grandes modelos.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Diálogo a16z: LLM es compresión con pérdida, el modelo mundial es la verdadera dirección.
World Labs es una startup fundada en 2024 por la reconocida experta en inteligencia artificial y profesora de la Universidad de Stanford, Fei-Fei Li, que se dedica al desarrollo de sistemas de inteligencia artificial de próxima generación con "inteligencia espacial".
Desde su creación, World Labs ha completado dos rondas de financiación por un total aproximado de 230 millones de dólares. Entre los principales inversores se encuentran a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures e Intel Capital, entre otros. La valoración de la empresa superó los 1.000 millones de dólares en solo tres meses, lo que la convierte en un nuevo unicornio en el espacio de la IA.
Recientemente, Li Feifei tuvo una conversación con dos socios de a16z, Martin Casado y Eric Torenberg, y habló públicamente por primera vez sobre la construcción del concepto, la dirección de investigación y la gran visión detrás de su cofundación de World Labs: el pasado y el presente de la estrategia de la plataforma a16z: de VC "reacio a limpiar traseros" a "servicio full-stack".
Li Feifei señaló desde el principio el punto central de esta conversación: "No necesito que un gran modelo de lenguaje me convenza, el modelo del mundo es realmente la dirección importante."
Ella enfatiza que la inteligencia espacial, ya sea en el mundo físico tridimensional en el que vivimos o en el universo digital que imaginamos, es una parte indispensable de la inteligencia. Y hoy, finalmente tenemos la capacidad de generar y reconstruir esos universos.
▍****Inteligencia más antigua que el lenguaje: percepción espacial y reconstrucción tridimensional
Li Feifei señaló que, en comparación con el lenguaje, la percepción espacial es una habilidad más antigua e instintiva en el proceso de la evolución humana. Compartió una experiencia personal: hace unos años, debido a una lesión en la córnea que le provocó una breve pérdida de la visión estereoscópica, durante ese tiempo, tenía miedo de conducir sola, incluso en una calle conocida, y le resultaba difícil calcular la distancia con el coche de al lado.
Esta experiencia experimental le hizo darse cuenta profundamente del papel fundamental que tiene el sistema de percepción tridimensional en la acción humana. Y para la IA, si no puede establecer un modelo del mundo tridimensional, no podrá entender, operar o reconstruir realmente el mundo real.
Martín Casado añade que esta falta de inteligencia tridimensional es una de las principales razones por las que los robots y los sistemas de inteligencia incorporados han tardado en aterrizar. Utiliza el ejemplo de un profano para explicar que si llevas a una persona a una habitación extraña, le vendas los ojos, describes el espacio solo con palabras y luego le dejas completar la tarea, es casi imposible. Una vez que se abren los ojos, el cerebro reconstruye automáticamente el modelo espacial y completa la acción. Este tipo de capacidad de reconstrucción está completamente ausente en los modelos lingüísticos dominantes actuales.
▍****Del NeRF al punto crítico tecnológico del modelo mundial
Al hablar sobre por qué decidió fundar World Labs en este momento, Fei-Fei Li cree que es el resultado de una acumulación de investigación académica a largo plazo y de una base industrial.
Recuerda que hace cuatro años, un avance de investigación llamado NeRF (Neural Radiance Field) abrió una vía completamente nueva para el modelado de visión en 3D. El proponente de NeRF no es otro que Ben Mildenhall, uno de los actuales cofundadores de World Labs.
El otro fundador, Christopher, realizó una investigación pionera en la representación tridimensional eficiente, impulsando el regreso de la modelación 3D volumétrica en la industria.
Además, con Justin Johnson, quien aplicó la tecnología GAN en la transferencia de estilo de imágenes en sus primeras etapas, estos resultados de investigación dispersos ahora se integran en el mismo equipo, en torno a un objetivo "estrella polar": construir la capacidad de modelo del mundo de la IA.
Martin resumió este objetivo en la profunda fusión de dos sistemas: uno es el modelo de IA, los datos y la arquitectura en sí, y el otro es el sistema de ingeniería de renderizado gráfico y reconstrucción espacial. Permitir que los expertos de estos dos mundos colaboren de manera eficiente en una plataforma es en sí mismo una importante innovación organizativa en la industria tecnológica.
▍****Los modelos de lenguaje no son el destino, sino el prólogo
Li Feifei enfatizó que su fe en el modelo del mundo no proviene de la decepción hacia los LLM, sino de una comprensión más profunda de la naturaleza de la inteligencia.
Ella señaló que el lenguaje es una forma de "compresión dañina" de la cognición, abstrae el mundo, pero también pierde información física y perceptual rica. El verdadero mundo real no tiene palabras, gramática ni texto, solo física, movimiento y estructura tridimensional.
Esta percepción también ha cambiado su percepción de cómo debería ser una empresa de IA. Pasó de ser una profesora de Stanford a una empresaria porque se dio cuenta de que la investigación académica por sí sola no era suficiente para modelar la inteligencia espacial, sino que requería inversión en computación industrial, programación de arquitectura a nivel de sistema y la capacidad de colaboración de los mejores talentos transfronterizos.
Y todo esto solo puede materializarse en una empresa con un alto grado de organización y una destacada capacidad de colaboración en ingeniería de pila completa.
▍****Las aplicaciones inteligentes en el espacio superan con creces a los robots
Para la mayoría de las personas, "modelo del mundo" sigue siendo un término científico abstracto. Pero Fei-Fei Li y Martin señalan que su aplicación va mucho más allá de la conducción autónoma y la robótica.
La creatividad, en esencia, es visual. El diseño industrial, la producción de películas, la composición arquitectónica e incluso el desarrollo de juegos dependen completamente de la construcción y manipulación tridimensional. Y si la IA tiene la capacidad de modelar el mundo, no solo podrá "entender" el mundo tridimensional, sino también "generar" y "operar" en el espacio virtual.
Martin describe que con solo una fotografía de una mesa, el modelo puede deducir la forma y el material detrás de ella para construir una escena espacial completa. Además de eso, los usuarios pueden incluso medir, agregar, eliminar o rediseñar el espacio. Esta es una forma más intuitiva y libre de interacción humano-computadora que los comandos de texto, y también abre una dimensión completamente nueva de experimentación de diseño, creación y simulación.
Li Feifei propuso además que el espacio digital está ofreciendo una oportunidad de transformación sin precedentes: "La humanidad hasta ahora solo ha vivido en un mundo físico tridimensional. Pero el mundo digital nos permitirá entrar por primera vez en un 'multiverso'."
Ella enumeró varios ejemplos: algunos universos están construidos específicamente para robots, otros sirven a la creatividad humana, y algunos se utilizan para contar, comunicarse y experimentar viajes. Estos espacios que antes solo existían en la imaginación, ahora serán realmente generados y serán entendidos, utilizados y transformados por máquinas.
▍****Modelo básico en la próxima batalla, modelado panorámico en 3D
Volviendo a la tecnología en sí, Fei-Fei Li enfatiza que World Labs no solo busca crear una IA que "vea", sino que quiere que la IA comprenda la estructura tridimensional del mundo, la dinámica y la lógica combinatoria. Esto no solo es un problema de ingeniería más difícil, sino también una nueva filosofía de representación.
Ella cree que los descubrimientos científicos como la estructura de doble hélice del ADN y la esfera bucky son el resultado de la inteligencia espacial. Es imposible derivar tales geometrías puramente por el lenguaje. Es por eso que el modelo mundial no solo puede mejorar la capacidad de comprensión de las máquinas, sino también abrir nuevos caminos creativos para la ciencia y el arte humanos.
Martin resumió que la revolución traída por LLM demuestra un hecho: cuando encontramos la estructura de datos y la representación del modelo correctas, la mejora de la capacidad de IA se disparará exponencialmente. Ahora, creen que el "modelo del mundo" está en un punto crítico similar.
▍****La llave para entender y construir el mundo
"En realidad, estamos retrocediendo en el camino de la evolución." Martin planteó este punto de vista y toda la conversación alcanzó un nivel filosófico.
El lenguaje es uno de los últimos módulos en la evolución del cerebro humano, mientras que los sistemas de percepción espacial han existido desde la época de los artrópodos y han existido durante 500 millones de años. La IA de hoy, si solo "aprende el idioma", no puede llamarse realmente "entender el mundo". Solo mediante la construcción de un modelo espacial similar al humano, la IA puede realmente entrar por la puerta de la "inteligencia encarnada".
Li Feifei resumió con su habitual tono firme: “He estado esperando este día. No porque no crea en los modelos de lenguaje, sino porque sé bien: el verdadero mundo no está constituido por texto.”
El modelo mundial es la clave para permitir que la IA comprenda y construya realmente el mundo. De I/O a iO, Jony Ive impulsará un nuevo movimiento de diseño: la IA está reescribiendo los paradigmas informáticos y las definiciones de hardware, y también es un nuevo campo de batalla detrás de los grandes modelos.