Diálogo a16z: LLM é compressão com perda, o modelo mundial é a verdadeira direção.

World Labs é uma startup fundada em 2024 pelo renomado especialista em IA e professor da Universidade de Stanford, Li Feifei, dedicada ao desenvolvimento de sistemas de IA de próxima geração com "inteligência espacial".

Desde a sua criação, a World Labs completou duas rodadas de financiamento, levantando um total de cerca de 230 milhões de dólares. Os principais investidores incluem a a16z, Radical Ventures, NEA, NVentures da Nvidia, AMD Ventures e Intel Capital. A avaliação da empresa ultrapassou os 1 mil milhões de dólares em apenas três meses, tornando-se um novo unicórnio no campo da IA.

Recentemente, Fei-Fei Li teve um diálogo com os dois parceiros da a16z, Martin Casado e Eric Torenberg, onde ela revelou pela primeira vez as ideias que fundamentam a fundação conjunta do World Labs, suas direções de pesquisa e grande visão. A estratégia da plataforma a16z ao longo do tempo: de VC "não querendo limpar a sujeira" para "serviço completo".

Li Feifei começou por destacar o ponto central da conversa: "Não preciso de grandes modelos de linguagem para me convencer, o modelo do mundo é realmente a direção importante."

Ela enfatizou que a inteligência espacial - seja no mundo físico tridimensional em que vivemos ou no universo digital que imaginamos - é uma parte essencial da inteligência. E hoje, finalmente temos a capacidade de gerar e reconstruir esses universos.

▍****Inteligência mais antiga que a linguagem: Percepção espacial e reconstrução tridimensional

Li Feifei apontou que, em comparação com a linguagem, a perceção espacial é uma habilidade mais antiga e instintiva no processo de evolução humana. Ela compartilhou uma experiência pessoal: há alguns anos, devido a uma lesão na córnea que causou uma breve perda da visão estereoscópica, durante esse tempo, ela tinha medo de dirigir sozinha, mesmo em uma rua familiar, e era difícil julgar a distância do carro ao seu lado.

Esta experiência experimental fez com que ela compreendesse profundamente o papel fundamental dos sistemas de percepção tridimensional na ação humana. E para a IA, se não conseguir estabelecer um modelo do mundo tridimensional, não poderá realmente compreender, operar ou reconstruir o mundo real.

Martin Casado acrescenta que esta falta de inteligência tridimensional é uma das principais razões pelas quais os robôs e os sistemas de inteligência incorporados têm demorado a aterrar. Ele usa o exemplo de um leigo para explicar que, se você levar uma pessoa para uma sala estranha, vendê-la, descrever o espaço apenas em palavras e, em seguida, deixá-la completar a tarefa – é quase impossível. Uma vez que os olhos são abertos, o cérebro reconstrói automaticamente o modelo espacial e completa a ação. Este tipo de capacidade de reconstrução é completamente inexistente nos atuais modelos linguísticos dominantes.

▍****Do NeRF ao ponto crítico tecnológico dos modelos de mundo

Ao falar sobre por que decidiu fundar a World Labs neste momento, Li Feifei acredita que é o resultado de uma longa acumulação de pesquisa acadêmica e de base industrial.

Ela revisitou que, há quatro anos, uma pesquisa chamada NeRF (Campo de Radiação Neural) quebrou barreiras e abriu novos caminhos para modelagem visual 3D. E o proponente do NeRF é, na verdade, um dos cofundadores atuais da World Labs, Ben Mildenhall.

O outro fundador, Christopher, realizou pesquisas pioneiras em representação tridimensional eficiente, impulsionando o retorno do modelagem 3D volumétrica na indústria.

Além disso, com Justin Johnson, que aplicou a tecnologia GAN na transferência de estilo de imagem desde o início, esses resultados de pesquisa fragmentados agora estão integrados na mesma equipe, em torno de um objetivo "estrela do norte": construir a capacidade do modelo de mundo da IA.

Martin resumiu este objetivo à profunda fusão de dois sistemas: por um lado, os modelos de IA, dados e a própria arquitetura; por outro lado, o sistema de engenharia de renderização gráfica e reconstrução espacial. Permitir que especialistas de esses dois mundos colaborem de forma eficiente numa única plataforma é, em si, uma importante inovação organizacional na indústria tecnológica.

▍****O modelo de linguagem não é o fim, mas sim o prólogo

Fei-Fei Li enfatiza que sua crença nos modelos do mundo não vem de uma decepção com os LLMs, mas de uma compreensão mais profunda da essência da inteligência.

Ela apontou que a linguagem é uma forma de "compressão prejudicial" da cognição, que abstrai o mundo, mas também perde informações físicas e perceptivas ricas. O verdadeiro mundo real não tem palavras, gramática ou texto, apenas física, movimento e estrutura tridimensional.

Esta visão também mudou a sua percepção sobre a forma que as empresas de IA devem ter. A transição de professora da Stanford para empreendedora ocorreu porque ela percebeu que, para modelar a inteligência espacial, a pesquisa acadêmica sozinha não é suficiente - é necessária uma contribuição de poder computacional industrial, agendamento de arquitetura em nível de sistema e a capacidade de colaboração de talentos de topo de diferentes áreas.

E tudo isso só pode ser realmente implementado em uma empresa com um alto nível de organização e uma capacidade de colaboração em engenharia de pilha completa.

▍****As aplicações inteligentes no espaço vão muito além da robótica

Para a maioria das pessoas, o "modelo mundial" ainda é um termo científico abstrato. Mas Li Feifei e Martin salientam que as suas aplicações vão muito além da condução autónoma e dos robôs.

A criatividade é inerentemente visual. Design industrial, filmagem, composição arquitetônica e até mesmo desenvolvimento de jogos dependem de construção e controle 3D. E se a IA tem a capacidade de modelar o mundo, pode não só "compreender" o mundo 3D, mas também "gerar" e "manipular" o espaço virtual.

Martin descreveu que, apenas com uma foto de uma mesa, o modelo consegue inferir a forma e o material por trás, construindo assim um cenário espacial completo. Com base nisso, os usuários podem até medir, adicionar, remover ou redesenhar o espaço. Esta é uma forma de interação humano-computador mais intuitiva e livre do que instruções textuais, e abre novas dimensões para design, criação e experimentação simulada.

Li Feifei further proposed that the digital space is bringing an unprecedented opportunity for transformation: "Humans have only lived in a three-dimensional physical world so far. But the digital world will allow us to enter a 'multiverse' for the first time."

Ela citou alguns exemplos: alguns universos são construídos especificamente para robôs, outros servem à criatividade humana, e alguns são usados para contar histórias, comunicação e experiências de viagem. Esses espaços, que antes existiam apenas na imaginação, agora serão realmente gerados, e serão compreendidos, utilizados e transformados pelas máquinas.

▍****Modelo básico na próxima batalha, modelagem panorâmica em 3D

Voltando à tecnologia em si, Li Feifei enfatizou que o World Labs não é apenas sobre construir uma IA que "pode ver", mas também sobre permitir que a IA compreenda a estrutura tridimensional, dinâmica e lógica combinatória do mundo. Não é apenas um problema de engenharia mais difícil, é toda uma nova filosofia de representação.

Ela acredita que descobertas científicas como a estrutura de dupla hélice do DNA e a esfera bucky são o resultado da inteligência espacial. É impossível derivar tais geometrias puramente pela linguagem. É por isso que o modelo mundial pode não só melhorar a capacidade de compreensão das máquinas, mas também abrir novos caminhos criativos para a ciência humana e a arte.

Martin resumiu que a revolução trazida pelos LLMs prova um fato: quando encontramos a estrutura de dados e a representação do modelo corretas, a capacidade da IA aumenta de forma exponencial. Agora, eles acreditam que o "modelo do mundo" está em um ponto crítico semelhante.

▍****A chave para entender e construir o mundo

"Na verdade, estamos a caminhar para trás na evolução." Martin levantou este ponto e toda a conversa atingiu um nível filosófico.

A linguagem é um dos módulos mais recentes na evolução do cérebro humano, enquanto os sistemas de perceção espacial existem desde a época dos artrópodes e existem há 500 milhões de anos. A IA de hoje, se apenas "aprende a língua", não pode realmente ser chamada de "compreender o mundo". Somente construindo um modelo espacial semelhante ao humano é que a IA pode realmente entrar na porta da "inteligência incorporada".

Li Feifei resumiu no seu habitual tom firme: "Estive à espera deste dia. Não é porque eu não acredite em modelos de linguagem, mas porque eu sei que o mundo real não é feito de texto. ”

O modelo mundial é a chave para que a IA realmente compreenda e construa este mundo. I/O para iO, Jony Ive irá impulsionar um novo movimento de design - a IA está reescrevendo o paradigma computacional e a definição de hardware, sendo também o novo campo de batalha após os grandes modelos.

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)