World Labs adalah perusahaan rintisan yang didirikan oleh ahli AI terkenal, Profesor Li Feifei dari Universitas Stanford pada tahun 2024, yang berfokus pada pengembangan sistem AI generasi berikutnya yang memiliki "kecerdasan ruang".
Sejak didirikan, World Labs telah menyelesaikan dua putaran pendanaan, mengumpulkan total sekitar 230 juta dolar AS. Investor utama termasuk a16z, Radical Ventures, NEA, NVentures Nvidia, AMD Ventures, dan Intel Capital. Perusahaan ini mencapai valuasi lebih dari 1 miliar dolar AS dalam waktu hanya tiga bulan, menjadi unicorn baru di bidang AI.
Baru-baru ini, Li Feifei mengadakan dialog dengan dua mitra a16z, Martin Casado dan Eric Torenberg, di mana dia pertama kali secara terbuka menjelaskan filosofi di balik pendirian World Labs, arah penelitian, dan visi agung a16z platform strategi dari masa lalu hingga sekarang: dari VC yang "tidak mau membersihkan" hingga "layanan penuh".
Li Feifei pada awalnya menyoroti poin inti dari dialog ini: "Saya tidak perlu model bahasa besar untuk meyakinkan saya, model dunia adalah arah yang benar-benar penting."
Dia menekankan bahwa kecerdasan spasial – apakah itu dunia fisik tiga dimensi yang kita tinggali atau alam semesta digital imajiner – adalah bagian integral dari kecerdasan. Dan hari ini, kita akhirnya memiliki kemampuan untuk menghasilkan dan membangun kembali alam semesta ini.
▍****Kecerdasan yang lebih tua dari bahasa: Persepsi ruang dan rekonstruksi tiga dimensi
Li Feifei menunjukkan bahwa dibandingkan dengan bahasa, persepsi spasial adalah kemampuan yang lebih kuno dan naluriah dalam proses evolusi manusia. Dia berbagi pengalaman pribadi: beberapa tahun yang lalu karena cedera kornea yang menyebabkan hilangnya penglihatan stereoskopik sebentar, selama waktu itu, dia takut untuk mengemudi sendirian, bahkan di jalan yang sudah dikenalnya, dan sulit untuk menilai jarak dari mobil di sebelahnya.
Pengalaman eksperimental ini memberinya pemahaman mendalam tentang peran mendasar sistem persepsi 3D dalam tindakan manusia. Untuk AI, ia tidak dapat benar-benar memahami, memanipulasi, atau merekonstruksi dunia nyata tanpa model 3D dunia.
Martin Casado menambahkan bahwa kurangnya kecerdasan tiga dimensi ini adalah alasan utama mengapa robot dan sistem intelijen yang diwujudkan lambat untuk mendarat. Dia menggunakan contoh orang awam untuk menjelaskan bahwa jika Anda membawa seseorang ke ruangan asing, menutup matanya, menggambarkan ruang itu dengan kata-kata saja, dan kemudian membiarkannya menyelesaikan tugas – itu hampir tidak mungkin. Setelah mata dibuka, otak secara otomatis merekonstruksi model spasial dan menyelesaikan tindakan. Kemampuan rekonstruksi semacam ini sama sekali tidak ada dalam model bahasa arus utama saat ini.
▍****Dari NeRF ke Titik Kritis Teknologi Model Dunia
Ketika ditanya mengapa memilih untuk mendirikan World Labs pada saat ini, Li Feifei percaya bahwa ini adalah hasil dari akumulasi penelitian akademis jangka panjang dan dasar industri.
Dia ingat bahwa empat tahun lalu, sebuah terobosan penelitian yang disebut NeRF (Neural Radiance Field) membuka jalan baru untuk pemodelan visi 3D. Pengusul NeRF tidak lain adalah Ben Mildenhall, salah satu pendiri World Labs saat ini.
Sementara itu, pendiri lainnya, Christopher, telah melakukan penelitian inovatif dalam representasi tiga dimensi yang efisien, mendorong kembalinya pemodelan 3D volumetrik di industri.
Ditambah dengan Justin Johnson yang sebelumnya menerapkan teknologi GAN untuk pemindahan gaya gambar, hasil penelitian yang terpisah ini kini dapat diintegrasikan dalam satu tim, berfokus pada satu tujuan "bintang utara": membangun kemampuan model dunia AI.
Martin merangkum tujuan ini menjadi dua penggabungan sistem yang mendalam: pertama adalah model AI, data, dan arsitektur itu sendiri, kedua adalah sistem teknik rendering grafis dan rekonstruksi ruang. Memungkinkan para ahli dari dua dunia ini untuk berkolaborasi secara efisien di satu platform adalah sebuah inovasi organisasi yang penting dalam industri teknologi.
▍****Model bahasa bukanlah titik akhir, melainkan bab pembuka
Li Feifei menekankan bahwa keyakinannya terhadap model dunia bukan berasal dari kekecewaan terhadap LLM, tetapi dari pemahaman yang lebih dalam tentang esensi kecerdasan.
Dia menunjukkan bahwa bahasa adalah cara kognitif "kompresi merugikan"; ia mengabstraksi dunia, tetapi juga kehilangan informasi fisik dan persepsi yang kaya. Dunia nyata yang sejati tidak memiliki kata-kata, tata bahasa, dan teks, hanya fisik, gerakan, dan struktur tiga dimensi.
Persepsi ini juga telah mengubah persepsinya tentang seperti apa seharusnya perusahaan AI. Dia berubah dari profesor Stanford menjadi pengusaha karena dia menyadari bahwa penelitian akademis saja tidak cukup untuk memodelkan kecerdasan spasial—itu membutuhkan investasi komputasi industri, penjadwalan arsitektur tingkat sistem, dan kemampuan kolaborasi talenta lintas batas terbaik.
Dan semua ini hanya dapat terwujud di sebuah perusahaan yang memiliki tingkat organisasi yang sangat tinggi dan kemampuan kolaborasi rekayasa yang menyeluruh.
▍****Aplikasi Cerdas Ruang Jauh Melampaui Robot
Bagi kebanyakan orang, "model dunia" masih merupakan istilah ilmiah yang abstrak. Namun, Li Fei Fei dan Martin sama-sama menunjukkan bahwa aplikasinya jauh lebih luas daripada mengemudi otomatis dan robot.
Kreativitas, pada dasarnya, bersifat visual. Desain industri, pembuatan film, komposisi arsitektur, bahkan pengembangan game, semuanya bergantung pada konstruksi dan pengendalian tiga dimensi. Dan jika AI memiliki kemampuan model dunia, ia tidak hanya dapat "memahami" dunia tiga dimensi, tetapi juga dapat "menghasilkan" dan "mengoperasikan" ruang virtual.
Martin menjelaskan bahwa dengan hanya satu foto meja, model dapat menyimpulkan bentuk dan bahan di baliknya, dan kemudian membangun skenario ruang yang lengkap. Berdasarkan ini, pengguna bahkan dapat mengukur, menambahkan, menghapus, atau meredesain ruang tersebut. Ini adalah cara interaksi manusia-mesin yang lebih intuitif dan bebas dibandingkan dengan instruksi teks, dan membuka dimensi baru untuk desain, kreasi, dan eksperimen simulasi.
Li Feifei lebih lanjut mengemukakan bahwa ruang digital sedang membawa kesempatan perubahan yang belum pernah ada sebelumnya: "Manusia hingga saat ini hanya hidup di satu dunia fisik tiga dimensi. Namun, dunia digital akan untuk pertama kalinya membawa kita ke dalam 'multiverse'."
Dia menyebutkan beberapa contoh: beberapa alam semesta dibangun khusus untuk robot, beberapa alam semesta melayani kreativitas manusia, dan beberapa digunakan untuk bercerita, berkomunikasi, dan mengalami perjalanan. Ruang yang dulunya hanya ada dalam imajinasi kini benar-benar akan dihasilkan, dan dipahami, digunakan, serta dimodifikasi oleh mesin.
▍****Model Dasar Pertarungan Selanjutnya, Pemodelan Panorama 3D
Kembali ke teknologi itu sendiri, Li Feifei menekankan bahwa World Labs bukan hanya tentang membangun AI yang "dapat melihat", tetapi juga tentang memungkinkan AI untuk memahami struktur tiga dimensi, dinamika, dan logika kombinatorial dunia. Ini bukan hanya masalah teknik yang lebih sulit, ini adalah filosofi representasi yang sama sekali baru.
Dia percaya bahwa penemuan ilmiah seperti struktur heliks ganda DNA dan bola bucky adalah hasil dari kecerdasan spasial. Tidak mungkin untuk memperoleh geometri seperti itu murni dengan bahasa. Inilah sebabnya mengapa model dunia tidak hanya dapat meningkatkan kemampuan pemahaman mesin, tetapi juga membuka jalur kreatif baru untuk ilmu pengetahuan dan seni manusia.
Martin menyimpulkan bahwa revolusi LLM adalah bukti fakta bahwa ketika kita mendapatkan struktur dan model data dengan benar, kemampuan AI dapat meningkat secara eksponensial. Sekarang mereka percaya bahwa "model dunia" berdiri pada titik kritis yang sama.
▍****Kunci untuk Memahami dan Membangun Dunia
"Kita sebenarnya sedang berjalan mundur dalam jalur evolusi." Ketika Martin mengajukan pandangan ini, seluruh percakapan juga masuk ke level filosofis.
Bahasa adalah salah satu modul yang muncul terakhir dalam evolusi otak manusia, sementara sistem persepsi ruang telah ada sejak arthropoda, sudah ada selama lima ratus juta tahun. AI hari ini, jika hanya "belajar bahasa", tidak bisa benar-benar disebut "memahami dunia". Hanya dengan membangun model ruang yang menyerupai manusia, AI baru bisa dianggap benar-benar memasuki pintu "kecerdasan terwujud".
Li Feifei menyimpulkan dengan nada tegas seperti biasa: "Saya selalu menunggu hari ini. Bukan karena saya tidak percaya pada model bahasa, tetapi karena saya sangat menyadari: dunia yang sebenarnya, bukanlah yang terdiri dari teks."
Model dunia adalah kunci untuk membuat AI benar-benar memahami dan membangun dunia ini. I/O ke iO, Jony Ive akan mendorong gerakan desain baru — AI sedang menulis ulang paradigma komputasi dan definisi perangkat keras, serta merupakan medan perang baru setelah model besar.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Percakapan a16z: LLM adalah kompresi lossy, model dunia yang sebenarnya adalah arah yang benar.
World Labs adalah perusahaan rintisan yang didirikan oleh ahli AI terkenal, Profesor Li Feifei dari Universitas Stanford pada tahun 2024, yang berfokus pada pengembangan sistem AI generasi berikutnya yang memiliki "kecerdasan ruang".
Sejak didirikan, World Labs telah menyelesaikan dua putaran pendanaan, mengumpulkan total sekitar 230 juta dolar AS. Investor utama termasuk a16z, Radical Ventures, NEA, NVentures Nvidia, AMD Ventures, dan Intel Capital. Perusahaan ini mencapai valuasi lebih dari 1 miliar dolar AS dalam waktu hanya tiga bulan, menjadi unicorn baru di bidang AI.
Baru-baru ini, Li Feifei mengadakan dialog dengan dua mitra a16z, Martin Casado dan Eric Torenberg, di mana dia pertama kali secara terbuka menjelaskan filosofi di balik pendirian World Labs, arah penelitian, dan visi agung a16z platform strategi dari masa lalu hingga sekarang: dari VC yang "tidak mau membersihkan" hingga "layanan penuh".
Li Feifei pada awalnya menyoroti poin inti dari dialog ini: "Saya tidak perlu model bahasa besar untuk meyakinkan saya, model dunia adalah arah yang benar-benar penting."
Dia menekankan bahwa kecerdasan spasial – apakah itu dunia fisik tiga dimensi yang kita tinggali atau alam semesta digital imajiner – adalah bagian integral dari kecerdasan. Dan hari ini, kita akhirnya memiliki kemampuan untuk menghasilkan dan membangun kembali alam semesta ini.
▍****Kecerdasan yang lebih tua dari bahasa: Persepsi ruang dan rekonstruksi tiga dimensi
Li Feifei menunjukkan bahwa dibandingkan dengan bahasa, persepsi spasial adalah kemampuan yang lebih kuno dan naluriah dalam proses evolusi manusia. Dia berbagi pengalaman pribadi: beberapa tahun yang lalu karena cedera kornea yang menyebabkan hilangnya penglihatan stereoskopik sebentar, selama waktu itu, dia takut untuk mengemudi sendirian, bahkan di jalan yang sudah dikenalnya, dan sulit untuk menilai jarak dari mobil di sebelahnya.
Pengalaman eksperimental ini memberinya pemahaman mendalam tentang peran mendasar sistem persepsi 3D dalam tindakan manusia. Untuk AI, ia tidak dapat benar-benar memahami, memanipulasi, atau merekonstruksi dunia nyata tanpa model 3D dunia.
Martin Casado menambahkan bahwa kurangnya kecerdasan tiga dimensi ini adalah alasan utama mengapa robot dan sistem intelijen yang diwujudkan lambat untuk mendarat. Dia menggunakan contoh orang awam untuk menjelaskan bahwa jika Anda membawa seseorang ke ruangan asing, menutup matanya, menggambarkan ruang itu dengan kata-kata saja, dan kemudian membiarkannya menyelesaikan tugas – itu hampir tidak mungkin. Setelah mata dibuka, otak secara otomatis merekonstruksi model spasial dan menyelesaikan tindakan. Kemampuan rekonstruksi semacam ini sama sekali tidak ada dalam model bahasa arus utama saat ini.
▍****Dari NeRF ke Titik Kritis Teknologi Model Dunia
Ketika ditanya mengapa memilih untuk mendirikan World Labs pada saat ini, Li Feifei percaya bahwa ini adalah hasil dari akumulasi penelitian akademis jangka panjang dan dasar industri.
Dia ingat bahwa empat tahun lalu, sebuah terobosan penelitian yang disebut NeRF (Neural Radiance Field) membuka jalan baru untuk pemodelan visi 3D. Pengusul NeRF tidak lain adalah Ben Mildenhall, salah satu pendiri World Labs saat ini.
Sementara itu, pendiri lainnya, Christopher, telah melakukan penelitian inovatif dalam representasi tiga dimensi yang efisien, mendorong kembalinya pemodelan 3D volumetrik di industri.
Ditambah dengan Justin Johnson yang sebelumnya menerapkan teknologi GAN untuk pemindahan gaya gambar, hasil penelitian yang terpisah ini kini dapat diintegrasikan dalam satu tim, berfokus pada satu tujuan "bintang utara": membangun kemampuan model dunia AI.
Martin merangkum tujuan ini menjadi dua penggabungan sistem yang mendalam: pertama adalah model AI, data, dan arsitektur itu sendiri, kedua adalah sistem teknik rendering grafis dan rekonstruksi ruang. Memungkinkan para ahli dari dua dunia ini untuk berkolaborasi secara efisien di satu platform adalah sebuah inovasi organisasi yang penting dalam industri teknologi.
▍****Model bahasa bukanlah titik akhir, melainkan bab pembuka
Li Feifei menekankan bahwa keyakinannya terhadap model dunia bukan berasal dari kekecewaan terhadap LLM, tetapi dari pemahaman yang lebih dalam tentang esensi kecerdasan.
Dia menunjukkan bahwa bahasa adalah cara kognitif "kompresi merugikan"; ia mengabstraksi dunia, tetapi juga kehilangan informasi fisik dan persepsi yang kaya. Dunia nyata yang sejati tidak memiliki kata-kata, tata bahasa, dan teks, hanya fisik, gerakan, dan struktur tiga dimensi.
Persepsi ini juga telah mengubah persepsinya tentang seperti apa seharusnya perusahaan AI. Dia berubah dari profesor Stanford menjadi pengusaha karena dia menyadari bahwa penelitian akademis saja tidak cukup untuk memodelkan kecerdasan spasial—itu membutuhkan investasi komputasi industri, penjadwalan arsitektur tingkat sistem, dan kemampuan kolaborasi talenta lintas batas terbaik.
Dan semua ini hanya dapat terwujud di sebuah perusahaan yang memiliki tingkat organisasi yang sangat tinggi dan kemampuan kolaborasi rekayasa yang menyeluruh.
▍****Aplikasi Cerdas Ruang Jauh Melampaui Robot
Bagi kebanyakan orang, "model dunia" masih merupakan istilah ilmiah yang abstrak. Namun, Li Fei Fei dan Martin sama-sama menunjukkan bahwa aplikasinya jauh lebih luas daripada mengemudi otomatis dan robot.
Kreativitas, pada dasarnya, bersifat visual. Desain industri, pembuatan film, komposisi arsitektur, bahkan pengembangan game, semuanya bergantung pada konstruksi dan pengendalian tiga dimensi. Dan jika AI memiliki kemampuan model dunia, ia tidak hanya dapat "memahami" dunia tiga dimensi, tetapi juga dapat "menghasilkan" dan "mengoperasikan" ruang virtual.
Martin menjelaskan bahwa dengan hanya satu foto meja, model dapat menyimpulkan bentuk dan bahan di baliknya, dan kemudian membangun skenario ruang yang lengkap. Berdasarkan ini, pengguna bahkan dapat mengukur, menambahkan, menghapus, atau meredesain ruang tersebut. Ini adalah cara interaksi manusia-mesin yang lebih intuitif dan bebas dibandingkan dengan instruksi teks, dan membuka dimensi baru untuk desain, kreasi, dan eksperimen simulasi.
Li Feifei lebih lanjut mengemukakan bahwa ruang digital sedang membawa kesempatan perubahan yang belum pernah ada sebelumnya: "Manusia hingga saat ini hanya hidup di satu dunia fisik tiga dimensi. Namun, dunia digital akan untuk pertama kalinya membawa kita ke dalam 'multiverse'."
Dia menyebutkan beberapa contoh: beberapa alam semesta dibangun khusus untuk robot, beberapa alam semesta melayani kreativitas manusia, dan beberapa digunakan untuk bercerita, berkomunikasi, dan mengalami perjalanan. Ruang yang dulunya hanya ada dalam imajinasi kini benar-benar akan dihasilkan, dan dipahami, digunakan, serta dimodifikasi oleh mesin.
▍****Model Dasar Pertarungan Selanjutnya, Pemodelan Panorama 3D
Kembali ke teknologi itu sendiri, Li Feifei menekankan bahwa World Labs bukan hanya tentang membangun AI yang "dapat melihat", tetapi juga tentang memungkinkan AI untuk memahami struktur tiga dimensi, dinamika, dan logika kombinatorial dunia. Ini bukan hanya masalah teknik yang lebih sulit, ini adalah filosofi representasi yang sama sekali baru.
Dia percaya bahwa penemuan ilmiah seperti struktur heliks ganda DNA dan bola bucky adalah hasil dari kecerdasan spasial. Tidak mungkin untuk memperoleh geometri seperti itu murni dengan bahasa. Inilah sebabnya mengapa model dunia tidak hanya dapat meningkatkan kemampuan pemahaman mesin, tetapi juga membuka jalur kreatif baru untuk ilmu pengetahuan dan seni manusia.
Martin menyimpulkan bahwa revolusi LLM adalah bukti fakta bahwa ketika kita mendapatkan struktur dan model data dengan benar, kemampuan AI dapat meningkat secara eksponensial. Sekarang mereka percaya bahwa "model dunia" berdiri pada titik kritis yang sama.
▍****Kunci untuk Memahami dan Membangun Dunia
"Kita sebenarnya sedang berjalan mundur dalam jalur evolusi." Ketika Martin mengajukan pandangan ini, seluruh percakapan juga masuk ke level filosofis.
Bahasa adalah salah satu modul yang muncul terakhir dalam evolusi otak manusia, sementara sistem persepsi ruang telah ada sejak arthropoda, sudah ada selama lima ratus juta tahun. AI hari ini, jika hanya "belajar bahasa", tidak bisa benar-benar disebut "memahami dunia". Hanya dengan membangun model ruang yang menyerupai manusia, AI baru bisa dianggap benar-benar memasuki pintu "kecerdasan terwujud".
Li Feifei menyimpulkan dengan nada tegas seperti biasa: "Saya selalu menunggu hari ini. Bukan karena saya tidak percaya pada model bahasa, tetapi karena saya sangat menyadari: dunia yang sebenarnya, bukanlah yang terdiri dari teks."
Model dunia adalah kunci untuk membuat AI benar-benar memahami dan membangun dunia ini. I/O ke iO, Jony Ive akan mendorong gerakan desain baru — AI sedang menulis ulang paradigma komputasi dan definisi perangkat keras, serta merupakan medan perang baru setelah model besar.