對話 a16z：LLM 是有損壓縮世界模型才是真正的方向

2025-06-05 13:42:38

World Labs 是由著名 AI 專家、斯坦福大學教授李飛飛於 2024 年創辦的初創公司，致力於開發具備“空間智能”的下一代 AI 系統。

自成立以來，World Labs 已完成兩輪融資，總計籌集資金約 2.3 億美元。主要投資者包括 a16z、Radical Ventures、NEA、英偉達 NVentures、AMD Ventures 和 Intel Capital 等。公司估值在短短三個月內突破 10 億美元，成爲 AI 領域的新晉獨角獸。

近日，李飛飛與 a16z 兩位合夥人 Martin Casado 以及 Eric Torenberg 展開了一場對話，她首次公開講述了他們共同創辦 World Labs 背後的理念構建、研究方向與宏大願景a16z 平台戰略前世今生：從 VC “不願擦屁股”到“全棧服務”。

李飛飛一開始就點出了本場對話的核心觀點：“我不需要大語言模型來說服我，世界模型才是那個真正重要的方向。”

她強調，空間智能——無論是我們生活在其中的三維物理世界，還是想象中的數字宇宙——都是智能不可或缺的組成部分。而今天，我們終於具備了生成與重建這些宇宙的能力。

▍比語言更古老的智能：空間感知與三維重建

李飛飛指出，相比於語言，空間感知才是人類進化過程中更爲古老而本能的能力。她分享了一段親身經歷：數年前因角膜受傷導致短暫喪失立體視覺，在那段時間裏，她不敢獨自駕車，哪怕是熟悉的街道，也難以判斷與旁車的距離。

這個實驗性的體驗讓她深刻認識到三維感知系統在人類行動中的基礎作用。而對 AI 而言，如果無法建立三維世界模型，就無法真正理解、操作或重建現實世界。

Martin Casado 補充說，這種三維智能的缺失，正是機器人和具身智能系統遲遲難以落地的關鍵原因。他用一個通俗的例子解釋：如果你帶着一個人走進一個陌生房間，蒙上他雙眼，只靠語言來描述這個空間，再讓他完成任務——幾乎不可能。而一旦睜開眼睛，大腦就能自動重建空間模型並完成行動。這種重建能力，是當前主流語言模型所完全不具備的。

▍從 NeRF 到世界模型的技術臨界點

談及爲何此時選擇創辦 World Labs，李飛飛認爲，這是長期學術研究與產業基礎積累的結果。

她回顧道，早在四年前，一項名爲 NeRF（神經輻射場）的研究突破，已爲三維視覺建模打開了全新通路。而 NeRF 的提出者，正是現任 World Labs 聯合創始人之一 Ben Mildenhall。

而另一位創始人 Christopher 則在高效三維表示方面進行了開創性研究，推動了 volumetric 3D 建模在工業界的回歸。

再加上早期將 GAN 技術應用於圖像風格遷移的 Justin Johnson，這些零散的研究成果如今得以整合在同一團隊之中，圍繞一個“北極星級”的目標：構建 AI 的世界模型能力。

Martin 將這一目標歸結爲兩個系統的深度融合：一是 AI 模型、數據與架構本身，二是圖形渲染與空間重建的工程體系。能讓這樣兩個世界的專家在一個平台上高效協作，本身就是技術產業的一次重要組織創新。

▍語言模型不是終點，而是序章

李飛飛強調，她對世界模型的信仰並非來自對 LLM 的失望，而是對智能本質的更進一步理解。

她指出，語言是一種“有損壓縮”的認知方式，它抽象了世界，卻也失去了豐富的物理與感知信息。真正的現實世界，沒有單詞、語法和文本，只有物理、運動與三維結構。

這種看法也改變了她對 AI 公司應有形態的認知。從斯坦福教授轉向創業者，是因爲她意識到，要實現對空間智能的建模，僅靠學術研究遠遠不夠——需要工業化的算力投入、系統級的架構調度與頂級跨界人才的協作能力。

而這一切，只有在一家組織化程度極高、全棧工程協同能力突出的公司中，才能真正落地。

▍空間智能應用遠超機器人

對大多數人而言，“世界模型”仍是抽象的科研術語。但李飛飛與 Martin 共同指出，它的應用遠超自動駕駛與機器人。

創造力，本質上就是視覺性的。工業設計、電影制作、建築構圖，甚至遊戲開發，全部依賴於三維構建與操控。而如果 AI 擁有世界模型能力，它不僅能“看懂”三維世界，還能“生成”並“操作”虛擬空間。

Martin 描述道，只需一張桌子的照片，模型就能推斷出背後的形態與材質，進而構建完整空間場景。在此基礎上，用戶甚至可以對空間進行測量、添加、刪除或重新設計。這是一種比文字指令更爲直覺和自由的人機交互方式，也爲設計、創作與模擬實驗打開了全新維度。

李飛飛進一步提出，數字空間正帶來一個從未有過的變革機會：“人類迄今爲止都只活在一個三維物理世界中。但數字世界，將首次讓我們進入‘多重宇宙’。”

她列舉了幾個例子：有的宇宙專爲機器人而建，有的宇宙服務於人類創意，有的用於講述、交流與體驗旅行。這些曾只存在於想象中的空間，如今將真正被生成出來，並被機器理解、使用、改造。

▍基礎模型下一戰，三維全景建模

回到技術本身，李飛飛強調，World Labs 不只是要造一個“會看”的 AI，而是要讓 AI 理解世界的三維結構、動力學與組合邏輯。這不只是更難的工程問題，也是一種全新的表示哲學。

她認爲，像 DNA 的雙螺旋結構、巴基球等科學發現，都是空間智能的結晶。純靠語言，不可能推導出這類幾何構造。而這也是爲何世界模型不僅能提升機器的理解能力，更可能爲人類的科學與藝術打開新的創作路徑。

Martin 總結說，LLM 帶來的革命證明了一個事實：當我們找對了數據結構和模型表示方式，AI 的能力提升會呈指數級爆發。現在，他們相信“世界模型”正站在類似的臨界點上。

▍理解並構建世界的鑰匙

“我們其實正在倒着走進化之路。”Martin 提出這個觀點時，整個對話也走到了哲學層面。

語言是人類大腦進化中最晚出現的模塊之一，而空間感知系統則自節肢動物以來就存在，至今已有五億年。今天的 AI，如果只是“學會語言”，並不能真正稱之爲“理解世界”。而只有構建出類人空間模型，AI 才算真正踏入“具身智能”的大門。

李飛飛以一貫的堅定口吻總結道：“我一直在等這一天。不是因爲我不信語言模型，而是我深知：真正的世界，不是文本構成的。”

而世界模型，就是讓 AI 真正理解並構建這個世界的鑰匙。I/O 到 iO，Jony Ive 將推動一場新的設計運動 —— AI 正在改寫計算範式與硬件定義，也是大模型後的新戰場。

A0.79%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

對話 a16z：LLM 是有損壓縮 世界模型才是真正的方向

▍****比語言更古老的智能：空間感知與三維重建

▍****從 NeRF 到世界模型的技術臨界點

▍****語言模型不是終點，而是序章

▍****空間智能應用遠超機器人

▍****基礎模型下一戰，三維全景建模

▍****理解並構建世界的鑰匙