対話 a16z:LLM は損失圧縮であり、世界モデルこそが本当の方向である

World Labsは、著名なAI専門家でスタンフォード大学教授のFeifei Li氏によって2024年に設立されたスタートアップで、「空間知能」を備えた次世代AIシステムを開発しています。

World Labs は設立以来、総額約 2 億 3,000 万ドルの 2 回の資金調達ラウンドを完了しました。 主な投資家には、a16z、Radical Ventures、NEA、Nvidia NVentures、AMD Ventures、Intel Capitalなどが含まれます。 同社の評価額はわずか3か月で10億ドルを超え、AI分野での新たなユニコーンとなりました。

最近、Li Feifei は a16z の 2 人のパートナー、Martin Casado と Eric Torenberg と対談し、World Labs の共同設立の背後にあるコンセプト構築、研究の方向性、壮大なビジョンについて初めて公に語りました。これは、a16z プラットフォーム戦略の過去と現在、VC の「ケツを拭くことを望まない」から「フルスタック サービス」までです。

李飛飛は最初にこの対話の核心的なポイントを指摘した:「私は大規模言語モデルに納得させられる必要はなく、世界モデルこそが本当に重要な方向です。」

彼女は、私たちが生活する三次元の物理世界であれ、想像上のデジタル宇宙であれ、空間の知性が知性に不可欠な構成要素であると強調しました。そして今日、私たちはこれらの宇宙を生成し再構築する能力をついに手に入れました。

▍****言語よりも古い知能:空間認識と3D再構成

李飛飛は、言語と比較して、空間認識は人間の進化の過程でより古く、本能的な能力であると指摘しました。 彼女は個人的な経験を共有しました:数年前、角膜の損傷により立体視が一時的に失われたため、その間、彼女は慣れ親しんだ通りでさえ一人で運転することを恐れ、隣の車との距離を判断するのが難しかったです。

この実験的な体験は、彼女に三次元知覚システムが人間の行動において基本的な役割を果たしていることを深く認識させました。そして、AI にとって、三次元世界モデルを構築できなければ、現実世界を真に理解し、操作し、再構築することはできません。

マーティン・カサドは、この3次元知能の欠如が、ロボットや身体化された知能システムの着陸が遅い主な理由であると付け加えています。 彼は素人の例を挙げて、人を奇妙な部屋に連れて行き、目隠しをし、その空間を言葉だけで説明し、そのタスクを完了させると、ほとんど不可能であると説明しています。 目が開くと、脳は自動的に空間モデルを再構築し、アクションを完了します。 この種の再構築能力は、現在の主流の言語モデルには完全に欠けています。

▍****NeRFから世界モデルへの技術的臨界点

なぜこの時期にWorld Labsを設立することを選んだのかについて、李飛飛は、これは長期的な学術研究と産業基盤の蓄積の結果であると考えています。

彼女は、4年前、NeRF(Neural Radiance Field)と呼ばれる研究のブレークスルーにより、3Dビジョンモデリングのまったく新しい道が開かれたことを思い出します。 NeRFの提案者は、World Labsの現在の共同創設者の1人であるBen Mildenhallに他なりません。

もう一人の創設者であるクリストファーは、高効率の三次元表現に関する画期的な研究を行い、産業界におけるボリュメトリック3Dモデリングの復活を推進しました。

そして、初期にGAN技術を画像スタイル転送に応用したジャスティン・ジョンソンを加え、これらの断片的な研究成果は現在同じチームに統合され、「北極星」の目標を中心に構築されています:AIの世界モデルの能力。

Martin 氏は、この目標は、AI モデル、データ、アーキテクチャ自体、およびグラフィックス レンダリングと空間再構成のためのエンジニアリング システムという 2 つのシステムを深く統合したことによるものだと考えています。 これら 2 つの世界の専門家が 1 つのプラットフォームで効率的に共同作業できるようにすること自体が、テクノロジー業界における重要な組織的イノベーションです。

▍****言語モデルは終点ではなく、序章です

李飛飛は、彼女の世界モデルへの信念がLLMへの失望から来ているのではなく、知能の本質に対するさらなる理解から来ていることを強調した。

彼女は、言語が「損失圧縮」の認知方法であり、世界を抽象化する一方で、豊かな物理的および知覚的情報を失っていると指摘しました。本当の現実世界には、単語、文法、テキストはなく、物理、運動、三次元の構造だけがあります。

この認識は、AI企業がどのようなものであるべきかについての彼女の認識も変えました。 スタンフォード大学の教授から起業家に転身したのは、学術研究だけでは空間知能をモデル化するには不十分であり、産業コンピューティングへの投資、システムレベルのアーキテクチャ スケジューリング、国境を越えた優秀な人材のコラボレーション能力が必要であることに気づいたからです。

そしてこれらは、組織化の程度が非常に高く、全スタックエンジニアリングの協調能力が卓越した企業でのみ、実際に実現することができる。

▍****空間インテリジェントアプリケーションはロボットを超える

ほとんどの人にとって、「ワールドモデル」はまだ抽象的な科学用語です。 しかし、Li Feifei氏とMartin氏は、その応用は自動運転やロボットをはるかに超えていると指摘しています。

クリエイティビティは本質的に視覚的なものです。 インダストリアルデザイン、映画制作、建築構成、さらにはゲーム開発までもが、すべて3Dの構築と制御に依存しています。 そして、AIが世界をモデル化する能力を持っていれば、3D世界を「理解」するだけでなく、仮想空間を「生成」し「操作」することも可能になります。

マーティンは、テーブルの写真だけで、モデルがその背後にある形状と素材を推測して、完全な空間シーンを構築できると説明しています。 さらに、ユーザーはスペースを測定、追加、削除、または再設計することもできます。 これは、テキストコマンドよりも直感的で自由な人間とコンピューターの対話方法であり、設計、作成、シミュレーションの実験にまったく新しい次元を開きます。

李飛飛はさらに、デジタル空間がかつてない変革の機会をもたらしていると提起した。「人類はこれまで三次元の物理世界にしか存在していなかった。しかし、デジタル世界は初めて私たちを『マルチバース』に導く。」

彼女は、ロボットのために作られた宇宙、人間の創造性のための宇宙、物語、コミュニケーション、体験型旅行など、いくつかの例を挙げています。 かつては想像の中にしか存在しなかったこれらの空間が、今や真に機械によって生成され、理解され、利用され、変容するようになるのです。

▍****基礎モデルの次の戦い、3Dパノラマモデリング

技術自体に戻ると、Li Feifei氏は、World Labsは単に「見える」AIを構築するだけでなく、AIが世界の3次元構造、ダイナミクス、組み合わせ論理を理解できるようにすることであると強調しました。 これは単なる難しいエンジニアリングの問題ではなく、まったく新しい表現の哲学です。

彼女は、DNAの二重らせん構造やバッキー球のような科学的発見は、空間知能の結果であると信じています。 このような幾何学を純粋に言語によって導き出すことは不可能です。 これが、ワールドモデルが機械の理解能力を向上させるだけでなく、人間の科学と芸術の新しい創造的な道を開くことができる理由です。

マーティンは、LLMがもたらす革命が一つの事実を証明したとまとめています。それは、適切なデータ構造とモデルの表現方法を見つけたとき、AIの能力の向上が指数関数的に爆発的に進むということです。今、彼らは「世界モデル」が同様の臨界点に立っていると信じています。

▍****世界を理解し構築するための鍵

「私たちは実際に進化の道を逆に歩んでいる。」マーティンがこの見解を示したとき、会話は哲学的なレベルに達しました。

言語は人間の脳の進化における最新のモジュールの1つであり、空間認識システムは節足動物の時代から存在し、5億年前から存在しています。 今のAIは、「言葉を学習する」だけでは「世界を理解する」とは言えません。 人間のような宇宙モデルを構築することによってのみ、AIは真に「具現化された知能」の扉に足を踏み入れることができます。

リー・フェイフェイは一貫した強い口調でまとめた:「私はずっとこの日を待っていた。言語モデルを信じていないからではなく、私は知っているからだ:本当の世界は、テキストで構成されているわけではない。」

ワールドモデルは、AIが世界を真に理解し、構築するための鍵です。 I/OからiOへ、ジョニー・アイブは新しいデザインムーブメントを推進します - AIはコンピューティングのパラダイムとハードウェアの定義を書き換えており、それはまた、大きなモデルの背後にある新たな戦場でもあります。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)