a16z ile konuşma: LLM kayıplı sıkıştırmadır, dünya modeli gerçek yönüdür.

World Labs, ünlü AI uzmanı ve Stanford Üniversitesi profesörü Li Feifei tarafından 2024 yılında kurulan bir girişimdir ve "uzamsal zeka"ye sahip bir sonraki nesil AI sistemleri geliştirmeye kendini adamıştır.

Kuruluşundan bu yana, World Labs iki finansman turunu tamamladı ve toplamda yaklaşık 230 milyon dolar topladı. Başlıca yatırımcılar arasında a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures ve Intel Capital gibi isimler yer almaktadır. Şirketin değeri yalnızca üç ay içinde 1 milyar doları aştı ve AI alanında yeni bir unicorn haline geldi.

Kısa bir süre önce Li Feifei, a16z'nin iki ortağı Martin Casado ve Eric Torenberg ile bir görüşme yaptı ve World Labs'ın kurucu ortaklığının ardındaki konsept oluşturma, araştırma yönü ve büyük vizyon hakkında ilk kez halka açık bir şekilde konuştu: a16z platform stratejisinin geçmişi ve bugünü: VC'nin "kıçını silmeye isteksiz"den "tam yığın hizmet"e.

Li Feifei başlangıçta bu diyalogun temel noktasını vurguladı: "Beni ikna etmek için büyük dil modellerine ihtiyacım yok, dünya modeli gerçekten önemli olan yön."

O, mekânsal zekânın - ister yaşadığımız üç boyutlu fiziksel dünya, ister hayal ettiğimiz dijital evren olsun - zekanın ayrılmaz bir parçası olduğunu vurguladı. Ve bugün, bu evrenleri oluşturma ve yeniden inşa etme yeteneğine nihayet sahip olduk.

▍****Dilden Daha Eski Bir Zeka: Mekansal Algı ve Üç Boyutlu Yeniden Yapılandırma

Li Feifei, dil ile karşılaştırıldığında, mekansal algının insan evrimi sürecinde daha eski ve içgüdüsel bir yetenek olduğuna dikkat çekti. Kişisel bir deneyim paylaştı: birkaç yıl önce, kısa bir stereoskopik görme kaybına neden olan bir kornea yaralanması nedeniyle, bu süre zarfında, tanıdık bir sokakta bile tek başına araba kullanmaktan korkuyordu ve yanındaki arabaya olan mesafeyi değerlendirmek zordu.

Bu deneysel deneyim, onun üç boyutlu algı sisteminin insan hareketlerindeki temel rolünü derinlemesine anlamasını sağladı. AI için ise, üç boyutlu bir dünya modeli oluşturamazsa, gerçek dünyayı gerçekten anlayamaz, işleyemez veya yeniden inşa edemez.

Martin Casado, bu üç boyutlu zeka eksikliğinin, robotların ve somutlaşmış zeka sistemlerinin inişinin yavaş olmasının temel bir nedeni olduğunu ekliyor. Bir kişiyi garip bir odaya götürürseniz, gözlerini bağlarsanız, alanı yalnızca kelimelerle tarif ederseniz ve sonra görevi tamamlamasına izin verirseniz – bunun neredeyse imkansız olduğunu açıklamak için sıradan bir örnek kullanıyor. Gözler açıldıktan sonra, beyin otomatik olarak uzamsal modeli yeniden yapılandırır ve eylemi tamamlar. Bu tür bir yeniden yapılandırma yeteneği, mevcut ana akım dil modellerinde tamamen eksiktir.

▍****NeRF'den dünya modeline teknik kritik nokta

World Labs'ı kurmayı bu zamanda seçme nedenleri hakkında Li Feifei, bunun uzun süreli akademik araştırmalar ve sanayi temeli birikiminin sonucu olduğunu düşünüyor.

Dört yıl önce, NeRF (Neural Radiance Field) adı verilen bir araştırma atılımının 3D vizyon modellemesi için yepyeni bir yol açtığını hatırlıyor. NeRF'nin teklif sahibi, World Labs'ın şu anki kurucu ortaklarından biri olan Ben Mildenhall'dan başkası değil.

Diğer kurucu Christopher ise verimli üç boyutlu temsiller konusunda öncü araştırmalar yaparak, hacimsel 3D modellemenin sanayiye dönüşümünü teşvik etti.

Ayrıca, GAN teknolojisinin görüntü stil transferine uygulanmasında öncü olan Justin Johnson sayesinde, bu dağınık araştırma sonuçları şimdi aynı ekip içinde bir araya geldi ve etrafında "kuzey yıldızı" gibi bir hedef oluşturuyor: AI'nın dünya modelleme yeteneğini inşa etmek.

Martin, bu hedefi iki sistemin derin entegrasyonuna bağlıyor: yapay zeka modeli, veriler ve mimarinin kendisi ve grafik oluşturma ve mekansal yeniden yapılandırma için mühendislik sistemi. Bu iki dünyadan uzmanların tek bir platformda verimli bir şekilde işbirliği yapmalarını sağlamak, teknoloji endüstrisinde önemli bir organizasyonel yeniliktir.

▍****Dil modelleri bir son değil, bir önsözdür

Li Feifei, dünya modeline olan inancının LLM'ye olan hayal kırıklığından değil, zekanın doğasına dair daha derin bir anlayıştan kaynaklandığını vurguladı.

Dilin, dünyayı soyutlayan ama aynı zamanda zengin fiziksel ve algısal bilgileri de kaybeden "kayıplı sıkıştırma" bir biliş yolu olduğuna dikkat çekti. Gerçek dünyada kelime, dilbilgisi ve metin yoktur, sadece fizik, hareket ve üç boyutlu yapı vardır.

Bu algı, bir yapay zeka şirketinin nasıl görünmesi gerektiğine dair algısını da değiştirdi. Bir Stanford profesöründen bir girişimciye dönüştü çünkü akademik araştırmanın tek başına uzamsal zekayı modellemek için yeterli olmadığını fark etti - endüstriyel bilgi işlem yatırımı, sistem düzeyinde mimari zamanlama ve en iyi sınır ötesi yeteneklerin işbirliği yeteneği gerektiriyordu.

Ve tüm bunlar, yalnızca son derece organize olmuş, tam yığın mühendislik iş birliği yetenekleri yüksek bir şirkette gerçekten hayata geçirilebilir.

▍****Uzay Akıllı Uygulamaları Robotları Aşar

Çoğu insan için "dünya modeli" hâlâ soyut bir bilim terimi. Ancak Li Feifei ve Martin, bunun otomatik sürüş ve robot teknolojisinin çok ötesinde uygulamaları olduğunu vurguladı.

Yaratıcılık doğası gereği görseldir. Endüstriyel tasarım, film yapımı, mimari kompozisyon ve hatta oyun geliştirmenin tümü 3D inşaat ve kontrole dayanır. Ve eğer yapay zeka dünyayı modelleme yeteneğine sahipse, yalnızca 3B dünyayı "anlamakla" kalmaz, aynı zamanda sanal alanı "üretebilir" ve "manipüle edebilir".

Martin, sadece bir masanın fotoğrafıyla, modelin tam bir mekansal sahne oluşturmak için arkasındaki formu ve malzemeyi çıkarabileceğini açıklıyor. Bunun da ötesinde, kullanıcılar alanı ölçebilir, ekleyebilir, kaldırabilir veya yeniden tasarlayabilir. Bu, insan-bilgisayar etkileşiminin metin komutlarından daha sezgisel ve özgür bir yoludur ve aynı zamanda tasarım, yaratma ve simülasyon deneyleri için yepyeni bir boyut açar.

Li Feifei, dijital alanın daha önce hiç yaşanmadık bir dönüşüm fırsatı sunduğunu ileri sürdü: "İnsanlık bugüne kadar yalnızca üç boyutlu fiziksel bir dünyada yaşadı. Ancak dijital dünya, bize ilk kez 'çoklu evrene' girmemizi sağlayacak."

O birkaç örnek sıraladı: Bazı evrenler robotlar için inşa edilmiş, bazıları insan yaratıcılığına hizmet ediyor, bazıları ise seyahat hikayeleri anlatmak, iletişim kurmak ve deneyimlemek için kullanılıyor. Daha önce sadece hayal gücünde var olan bu alanlar, artık gerçekten üretilecek ve makineler tarafından anlaşılacak, kullanılacak ve dönüştürülecek.

▍****Temel modelin bir sonraki savaşı, üç boyutlu panoramik modelleme

Teknolojinin kendisine geri dönen Li Feifei, World Labs'ın sadece "görebilen" bir yapay zeka oluşturmakla ilgili olmadığını, aynı zamanda yapay zekanın dünyanın üç boyutlu yapısını, dinamiklerini ve kombinatoryal mantığını anlamasını sağlamakla ilgili olduğunu vurguladı. Bu sadece daha zor bir mühendislik problemi değil, aynı zamanda tamamen yeni bir temsil felsefesi.

DNA'nın çift sarmal yapısı ve bucky küresi gibi bilimsel keşiflerin uzamsal zekanın sonucu olduğuna inanıyor. Bu tür geometrileri yalnızca dil ile türetmek mümkün değildir. Bu nedenle dünya modeli sadece makinelerin anlama yeteneğini geliştirmekle kalmaz, aynı zamanda insan bilimi ve sanatı için yeni yaratıcı yollar açar.

Martin özetle, LLM'nin getirdiği devrimin bir gerçeği kanıtladığını söyledi: Doğru veri yapısı ve model temsil yöntemini bulduğumuzda, AI'nın yetenekleri katlanarak artacaktır. Şimdi, "dünya modeli"nin benzer bir eşik noktasında durduğuna inanıyorlar.

▍****Dünyayı Anlamak ve İnşa Etmek İçin Anahtar

"Aslında evrim yolunda geri adım atıyoruz." Martin bu görüşü ortaya attığında, tüm diyalog felsefi bir boyuta da ulaştı.

Dil, insan beyninin evrimindeki en son modüllerden biridir, uzamsal algı sistemleri ise eklembacaklıların zamanından beri var ve yaklaşık 500 milyon yıldır var. Bugünün yapay zekası, eğer sadece "dili öğreniyorsa", gerçekten "dünyayı anlamak" olarak adlandırılamaz. Yapay zeka, yalnızca insan benzeri bir uzay modeli inşa ederek gerçekten "somutlaşmış zeka" kapısına adım atabilir.

Li Feifei, her usual resolute tone, summarized: "Bu günü hep bekliyordum. Dil modellerine inanmamamdan değil, gerçek dünyanın metinlerden oluşmadığını çok iyi bildiğim için."

Ve dünya modeli, AI'nın bu dünyayı gerçekten anlaması ve inşa etmesi için anahtardır. I/O'dan iO'ya, Jony Ive yeni bir tasarım hareketini teşvik edecek - AI, hesaplama paradigmalarını ve donanım tanımını yeniden yazıyor ve büyük modellerden sonraki yeni savaş alanı.

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)