World Labs — это стартап, основанный известным экспертом в области ИИ и профессором Стэнфордского университета Ли Фэйфэй в 2024 году, который занимается разработкой следующего поколения ИИ-систем с "пространственным интеллектом".
С момента своего основания World Labs завершила два раунда финансирования на общую сумму около 230 миллионов долларов. В число крупных инвесторов входят a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures и Intel Capital. Оценка компании превысила 1 миллиард долларов всего за три месяца, что сделало ее новым единорогом в пространстве искусственного интеллекта.
Недавно Ли Фэйфэй побеседовала с двумя партнерами a16z, Мартином Касадо и Эриком Торенбергом, и она впервые публично рассказала о построении концепции, направлении исследований и грандиозном видении, стоящем за их совместным основанием World Labs: прошлое и настоящее стратегии платформы a16z: от венчурного капитала «не желая вытирать задницу» до «полного стека услуг».
Ли Фэйфэй с самого начала указала на основную мысль этого диалога: "Мне не нужно, чтобы большие языковые модели убеждали меня, мировая модель - это действительно важное направление."
Она подчеркивает, что пространственный интеллект — будь то трехмерный физический мир, в котором мы живем, или воображаемая цифровая вселенная — является неотъемлемой частью интеллекта. И сегодня у нас наконец есть возможность создавать и восстанавливать эти вселенные.
▍****Интеллект, более древний, чем язык: пространственное восприятие и трехмерная реконструкция
Ли Фэйфэй отметил, что по сравнению с языком, пространственное восприятие является более древней и инстинктивной способностью в процессе эволюции человека. Она поделилась личным опытом: несколько лет назад из-за травмы роговицы, вызвавшей кратковременную потерю стереоскопического зрения, в то время она боялась ездить одна, даже по знакомой улице, и было сложно судить о расстоянии от машины рядом с ней.
Этот экспериментальный опыт позволил ей глубже осознать основную роль трехмерной воспринимающей системы в человеческом движении. А для ИИ, если нельзя создать модель трехмерного мира, он не сможет действительно понять, управлять или воссоздать реальный мир.
Мартин Касадо добавляет, что отсутствие трехмерного интеллекта является ключевой причиной, по которой роботы и воплощенные интеллектуальные системы медленно приземляются. На примере обывателя он объясняет, что если привести человека в незнакомую комнату, завязать ему глаза, описать пространство только словами, а затем дать ему выполнить задание – это практически невозможно. Как только глаза открыты, мозг автоматически реконструирует пространственную модель и завершает действие. Такого рода возможности реконструкции полностью отсутствуют в современных основных языковых моделях.
▍****Техническая критическая точка от NeRF к мировым моделям
Говоря о том, почему в это время было решено основать World Labs, Ли Фэйфэй считает, что это результат долгосрочных академических исследований и накопленного опыта в индустрии.
Она отметила, что еще четыре года назад прорыв в исследовании под названием NeRF (нейронное радиационное поле) открыл новые пути для трехмерного визуального моделирования. А предложил NeRF один из соучредителей World Labs Бен Мильденхолл.
А другой основатель, Кристофер, провел новаторские исследования в области эффективного трехмерного представления, что способствовало возвращению объемного 3D моделирования в промышленность.
Вдобавок к ранним исследованиям Джастина Джонсона, который применял технологию GAN для переноса стиля изображений, эти фрагментарные результаты исследований теперь объединены в одной команде вокруг одной "полярной звезды" цели: построение способности мировых моделей AI.
Мартин свёл эту цель к глубокому слиянию двух систем: во-первых, моделей ИИ, данных и самой архитектуры, во-вторых, инженерной системы графической визуализации и пространственной реконструкции. Возможность эффективного сотрудничества экспертов из этих двух миров на одной платформе сама по себе является важной организационной инновацией в технологической индустрии.
▍****Языковая модель - это не конечная точка, а пролог
Ли Фэйфэй подчеркнула, что ее вера в мировую модель не является результатом разочарования в LLM, а является более глубоким пониманием сущности интеллекта.
Она отметила, что язык является когнитивным способом «деструктивного сжатия», который абстрагирует мир, но также теряет богатую физическую и сенсорную информацию. Истинный реальный мир не имеет слов, грамматики и текста, только физика, движение и трехмерные структуры.
Это восприятие также изменило ее представление о том, как должна выглядеть компания в области искусственного интеллекта. Она превратилась из профессора Стэнфорда в предпринимателя, потому что поняла, что одних академических исследований недостаточно для моделирования пространственного интеллекта — для этого требуются инвестиции в промышленные вычисления, планирование архитектуры на системном уровне и способность к сотрудничеству лучших международных талантов.
И всё это может быть реализовано только в компании с высокой степенью организации и выдающимися возможностями для совместной работы в области полного стека.
▍****Приложения интеллектуального пространства значительно превосходят роботов
Для большинства людей "мировая модель" остается абстрактным научным термином. Однако Ли Фэйфэй и Мартин совместно указывают, что ее применение выходит далеко за пределы автономного вождения и робототехники.
Творчество по своей сути визуально. Промышленный дизайн, кинопроизводство, архитектурная композиция и даже разработка игр — все это зависит от 3D-конструирования и управления. И если ИИ обладает способностью моделировать мир, он может не только «понимать» 3D-мир, но и «генерировать» и «манипулировать» виртуальным пространством.
Мартин описал, что достаточно фотографии стола, чтобы модель могла определить форму и материал, стоящие за ним, и таким образом создать полную пространственную сцену. На этой основе пользователи могут даже измерять пространство, добавлять, удалять или redesign. Это более интуитивный и свободный способ взаимодействия человека с машиной по сравнению с текстовыми командами, который открывает новые горизонты для дизайна, творчества и симуляционных экспериментов.
Ли Фэйфэй также отметил, что цифровое пространство открывает беспрецедентную возможность для перемен: «До сих пор люди жили только в трехмерном физическом мире. Но цифровой мир, впервые, позволит нам войти в «мультивселенную». ”
Она привела несколько примеров: некоторые вселенные созданы специально для роботов, некоторые вселенные служат человеческому творчеству, некоторые используются для рассказывания, общения и переживания путешествий. Эти пространства, которые когда-то существовали только в воображении, теперь действительно будут созданы и поняты, использованы и преобразованы машинами.
▍****Базовая модель следующей битвы, трехмерное панорамное моделирование
Возвращаясь к самой технологии, Ли Фэйфэй подчеркивает, что World Labs не просто создает «видящий» ИИ, а стремится заставить ИИ понимать трехмерную структуру мира, динамику и комбинационную логику. Это не только более сложная инженерная задача, но и совершенно новая философия представления.
Она считает, что научные открытия, такие как двойная спираль ДНК и сфера Баки, являются результатом пространственного интеллекта. Невозможно вывести такую геометрию только с помощью языка. Вот почему модель мира может не только улучшить способность машин к пониманию, но и открыть новые творческие пути для человеческой науки и искусства.
Мартин приходит к выводу, что революция в области LLM является свидетельством того, что когда мы получаем правильные структуры данных и модели, возможности ИИ могут экспоненциально улучшаться. Теперь они считают, что «мировая модель» стоит на аналогичном переломном этапе.
▍****Ключ к пониманию и построению мира
"На самом деле мы движемся назад по пути эволюции." Когда Мартин высказал эту мысль, весь разговор вышел на философский уровень.
Язык является одним из последних модулей в эволюции человеческого мозга, в то время как системы пространственного восприятия существуют со времен членистоногих и существуют уже 500 миллионов лет. Сегодняшний ИИ, если он только «изучает язык», на самом деле не может быть назван «пониманием мира». Только построив человекоподобную модель космоса, ИИ может по-настоящему войти в дверь «воплощенного интеллекта».
Ли Фэйфэй с привычной решительностью подытожила: "Я всегда ждала этого дня. Не потому, что я не верю в языковые модели, а потому, что я прекрасно осознаю: настоящий мир не состоит из текста."
Модель мира является ключом к тому, чтобы позволить ИИ по-настоящему понимать и строить мир. От ввода-вывода до ввода-вывода, Джони Айв будет руководить новым дизайнерским движением — искусственный интеллект переписывает вычислительные парадигмы и определения оборудования, а также является новым полем битвы за большие модели.
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Диалог a16z: LLM — это сжатие с потерями, мировая модель — это действительно правильное направление.
World Labs — это стартап, основанный известным экспертом в области ИИ и профессором Стэнфордского университета Ли Фэйфэй в 2024 году, который занимается разработкой следующего поколения ИИ-систем с "пространственным интеллектом".
С момента своего основания World Labs завершила два раунда финансирования на общую сумму около 230 миллионов долларов. В число крупных инвесторов входят a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures и Intel Capital. Оценка компании превысила 1 миллиард долларов всего за три месяца, что сделало ее новым единорогом в пространстве искусственного интеллекта.
Недавно Ли Фэйфэй побеседовала с двумя партнерами a16z, Мартином Касадо и Эриком Торенбергом, и она впервые публично рассказала о построении концепции, направлении исследований и грандиозном видении, стоящем за их совместным основанием World Labs: прошлое и настоящее стратегии платформы a16z: от венчурного капитала «не желая вытирать задницу» до «полного стека услуг».
Ли Фэйфэй с самого начала указала на основную мысль этого диалога: "Мне не нужно, чтобы большие языковые модели убеждали меня, мировая модель - это действительно важное направление."
Она подчеркивает, что пространственный интеллект — будь то трехмерный физический мир, в котором мы живем, или воображаемая цифровая вселенная — является неотъемлемой частью интеллекта. И сегодня у нас наконец есть возможность создавать и восстанавливать эти вселенные.
▍****Интеллект, более древний, чем язык: пространственное восприятие и трехмерная реконструкция
Ли Фэйфэй отметил, что по сравнению с языком, пространственное восприятие является более древней и инстинктивной способностью в процессе эволюции человека. Она поделилась личным опытом: несколько лет назад из-за травмы роговицы, вызвавшей кратковременную потерю стереоскопического зрения, в то время она боялась ездить одна, даже по знакомой улице, и было сложно судить о расстоянии от машины рядом с ней.
Этот экспериментальный опыт позволил ей глубже осознать основную роль трехмерной воспринимающей системы в человеческом движении. А для ИИ, если нельзя создать модель трехмерного мира, он не сможет действительно понять, управлять или воссоздать реальный мир.
Мартин Касадо добавляет, что отсутствие трехмерного интеллекта является ключевой причиной, по которой роботы и воплощенные интеллектуальные системы медленно приземляются. На примере обывателя он объясняет, что если привести человека в незнакомую комнату, завязать ему глаза, описать пространство только словами, а затем дать ему выполнить задание – это практически невозможно. Как только глаза открыты, мозг автоматически реконструирует пространственную модель и завершает действие. Такого рода возможности реконструкции полностью отсутствуют в современных основных языковых моделях.
▍****Техническая критическая точка от NeRF к мировым моделям
Говоря о том, почему в это время было решено основать World Labs, Ли Фэйфэй считает, что это результат долгосрочных академических исследований и накопленного опыта в индустрии.
Она отметила, что еще четыре года назад прорыв в исследовании под названием NeRF (нейронное радиационное поле) открыл новые пути для трехмерного визуального моделирования. А предложил NeRF один из соучредителей World Labs Бен Мильденхолл.
А другой основатель, Кристофер, провел новаторские исследования в области эффективного трехмерного представления, что способствовало возвращению объемного 3D моделирования в промышленность.
Вдобавок к ранним исследованиям Джастина Джонсона, который применял технологию GAN для переноса стиля изображений, эти фрагментарные результаты исследований теперь объединены в одной команде вокруг одной "полярной звезды" цели: построение способности мировых моделей AI.
Мартин свёл эту цель к глубокому слиянию двух систем: во-первых, моделей ИИ, данных и самой архитектуры, во-вторых, инженерной системы графической визуализации и пространственной реконструкции. Возможность эффективного сотрудничества экспертов из этих двух миров на одной платформе сама по себе является важной организационной инновацией в технологической индустрии.
▍****Языковая модель - это не конечная точка, а пролог
Ли Фэйфэй подчеркнула, что ее вера в мировую модель не является результатом разочарования в LLM, а является более глубоким пониманием сущности интеллекта.
Она отметила, что язык является когнитивным способом «деструктивного сжатия», который абстрагирует мир, но также теряет богатую физическую и сенсорную информацию. Истинный реальный мир не имеет слов, грамматики и текста, только физика, движение и трехмерные структуры.
Это восприятие также изменило ее представление о том, как должна выглядеть компания в области искусственного интеллекта. Она превратилась из профессора Стэнфорда в предпринимателя, потому что поняла, что одних академических исследований недостаточно для моделирования пространственного интеллекта — для этого требуются инвестиции в промышленные вычисления, планирование архитектуры на системном уровне и способность к сотрудничеству лучших международных талантов.
И всё это может быть реализовано только в компании с высокой степенью организации и выдающимися возможностями для совместной работы в области полного стека.
▍****Приложения интеллектуального пространства значительно превосходят роботов
Для большинства людей "мировая модель" остается абстрактным научным термином. Однако Ли Фэйфэй и Мартин совместно указывают, что ее применение выходит далеко за пределы автономного вождения и робототехники.
Творчество по своей сути визуально. Промышленный дизайн, кинопроизводство, архитектурная композиция и даже разработка игр — все это зависит от 3D-конструирования и управления. И если ИИ обладает способностью моделировать мир, он может не только «понимать» 3D-мир, но и «генерировать» и «манипулировать» виртуальным пространством.
Мартин описал, что достаточно фотографии стола, чтобы модель могла определить форму и материал, стоящие за ним, и таким образом создать полную пространственную сцену. На этой основе пользователи могут даже измерять пространство, добавлять, удалять или redesign. Это более интуитивный и свободный способ взаимодействия человека с машиной по сравнению с текстовыми командами, который открывает новые горизонты для дизайна, творчества и симуляционных экспериментов.
Ли Фэйфэй также отметил, что цифровое пространство открывает беспрецедентную возможность для перемен: «До сих пор люди жили только в трехмерном физическом мире. Но цифровой мир, впервые, позволит нам войти в «мультивселенную». ”
Она привела несколько примеров: некоторые вселенные созданы специально для роботов, некоторые вселенные служат человеческому творчеству, некоторые используются для рассказывания, общения и переживания путешествий. Эти пространства, которые когда-то существовали только в воображении, теперь действительно будут созданы и поняты, использованы и преобразованы машинами.
▍****Базовая модель следующей битвы, трехмерное панорамное моделирование
Возвращаясь к самой технологии, Ли Фэйфэй подчеркивает, что World Labs не просто создает «видящий» ИИ, а стремится заставить ИИ понимать трехмерную структуру мира, динамику и комбинационную логику. Это не только более сложная инженерная задача, но и совершенно новая философия представления.
Она считает, что научные открытия, такие как двойная спираль ДНК и сфера Баки, являются результатом пространственного интеллекта. Невозможно вывести такую геометрию только с помощью языка. Вот почему модель мира может не только улучшить способность машин к пониманию, но и открыть новые творческие пути для человеческой науки и искусства.
Мартин приходит к выводу, что революция в области LLM является свидетельством того, что когда мы получаем правильные структуры данных и модели, возможности ИИ могут экспоненциально улучшаться. Теперь они считают, что «мировая модель» стоит на аналогичном переломном этапе.
▍****Ключ к пониманию и построению мира
"На самом деле мы движемся назад по пути эволюции." Когда Мартин высказал эту мысль, весь разговор вышел на философский уровень.
Язык является одним из последних модулей в эволюции человеческого мозга, в то время как системы пространственного восприятия существуют со времен членистоногих и существуют уже 500 миллионов лет. Сегодняшний ИИ, если он только «изучает язык», на самом деле не может быть назван «пониманием мира». Только построив человекоподобную модель космоса, ИИ может по-настоящему войти в дверь «воплощенного интеллекта».
Ли Фэйфэй с привычной решительностью подытожила: "Я всегда ждала этого дня. Не потому, что я не верю в языковые модели, а потому, что я прекрасно осознаю: настоящий мир не состоит из текста."
Модель мира является ключом к тому, чтобы позволить ИИ по-настоящему понимать и строить мир. От ввода-вывода до ввода-вывода, Джони Айв будет руководить новым дизайнерским движением — искусственный интеллект переписывает вычислительные парадигмы и определения оборудования, а также является новым полем битвы за большие модели.