دردشة a16z: LLM هو ضغط مفقود، نموذج العالم هو الاتجاه الحقيقي.

تأسست شركة World Labs في عام 2024 من قبل خبير الذكاء الاصطناعي الشهير، أستاذ جامعة ستانفورد لي فيفي، وهي شركة ناشئة تكرس جهودها لتطوير أنظمة ذكاء اصطناعي من الجيل التالي تتمتع ب"ذكاء مكاني".

منذ إنشائها ، أكملت World Labs جولتين تمويليتين يبلغ مجموعهما حوالي 230 مليون دولار. يشمل المستثمرون الرئيسيون a16z و Radical Ventures و NEA و Nvidia NVentures و AMD Ventures و Intel Capital وغيرها. تجاوز تقييم الشركة 1 مليار دولار في ثلاثة أشهر فقط ، مما يجعلها يونيكورن جديدا في مجال الذكاء الاصطناعي.

في الآونة الأخيرة ، أجرت Li Feifei محادثة مع اثنين من شركاء a16z ، Martin Casado و Eric Torenberg ، وتحدثت علنا لأول مرة عن بناء المفهوم واتجاه البحث والرؤية الكبرى وراء تأسيسهم المشترك ل World Labs: الماضي والحاضر لاستراتيجية منصة a16z: من VC "غير راغب في مسح الحمار" إلى "خدمة مكدس كامل".

أشارت لي في في بداية الحوار إلى النقطة الأساسية: "لا أحتاج إلى نماذج اللغة الكبيرة لإقناعي، فالنموذج العالمي هو الاتجاه المهم حقًا."

أشارت إلى أن الذكاء المكاني - سواء كان في عالمنا الفيزيائي ثلاثي الأبعاد الذي نعيش فيه أو في الكون الرقمي المتخيل - هو جزء لا يتجزأ من الذكاء. واليوم، لدينا أخيرًا القدرة على إنشاء وإعادة بناء هذه الأكوان.

▍****ذكاء أقدم من اللغة: الإدراك المكاني وإعادة البناء ثلاثي الأبعاد

وأشار لي فيفي إلى أنه بالمقارنة مع اللغة ، فإن الإدراك المكاني هو قدرة أقدم وغريزية في عملية التطور البشري. شاركت تجربة شخصية: قبل بضع سنوات بسبب إصابة في القرنية تسببت في فقدان قصير للرؤية المجسمة ، خلال ذلك الوقت ، كانت تخشى القيادة بمفردها ، حتى في شارع مألوف ، وكان من الصعب الحكم على المسافة من السيارة المجاورة لها.

أعطتها هذه التجربة التجريبية فهما عميقا للدور الأساسي لأنظمة الإدراك ثلاثية الأبعاد في العمل البشري. بالنسبة إلى الذكاء الاصطناعي ، لا يمكنه حقا فهم العالم الحقيقي أو التلاعب به أو إعادة بنائه بدون نموذج ثلاثي الأبعاد للعالم.

يضيف مارتن كاسادو أن هذا النقص في الذكاء ثلاثي الأبعاد هو سبب رئيسي لبطء الروبوتات وأنظمة الذكاء المجسدة. يستخدم مثال الشخص العادي لشرح أنه إذا اصطحبت شخصا إلى غرفة غريبة ، وعصب عينيه ، ووصف المساحة بالكلمات وحدها ، ثم دعته يكمل المهمة - يكاد يكون ذلك مستحيلا. بمجرد فتح العينين ، يقوم الدماغ تلقائيا بإعادة بناء النموذج المكاني وإكمال الإجراء. هذا النوع من القدرة على إعادة الإعمار مفقود تماما في نماذج اللغة السائدة الحالية.

▍****نقطة التحول التقنية من NeRF إلى نموذج العالم

عند الحديث عن سبب اختيار إنشاء World Labs في هذا الوقت، تعتقد لي فيفي أن هذا هو نتيجة تراكم الأبحاث الأكاديمية طويلة الأمد والأسس الصناعية.

وأشارت إلى أنه قبل أربع سنوات، كانت هناك اختراق في البحث يسمى NeRF (حقول الإشعاع العصبي)، والذي فتح طريقًا جديدًا لنمذجة الرؤية ثلاثية الأبعاد. وكان مقدم NeRF هو أحد مؤسسي World Labs الحاليين، بن ميلدن هول.

بينما قام أحد المؤسسين، كريستوفر، بإجراء أبحاث رائدة في مجال التمثيل ثلاثي الأبعاد الفعال، مما دفع إلى عودة نمذجة 3D الحجمية في الصناعة.

بالإضافة إلى جاستين جونسون الذي استخدم تقنية GAN في نقل أسلوب الصورة في وقت مبكر، فإن هذه الإنجازات البحثية المتفرقة قد تم دمجها الآن في نفس الفريق، حول هدف "نجم الشمال": بناء قدرة نموذج العالم للذكاء الاصطناعي.

يعزو مارتن هذا الهدف إلى التكامل العميق لنظامين: نموذج الذكاء الاصطناعي ، والبيانات ، والهندسة المعمارية نفسها ، والنظام الهندسي لعرض الرسومات وإعادة البناء المكاني. إن تمكين الخبراء من هذين العالمين من التعاون بكفاءة على منصة واحدة هو في حد ذاته ابتكار تنظيمي مهم في صناعة التكنولوجيا.

▍****نموذج اللغة ليس نهاية، بل هو المقدمة

أكدت لي فيفي أن إيمانها بنموذج العالم لا يأتي من خيبة أمل في LLM، بل من فهم أعمق لطبيعة الذكاء.

أشارت إلى أن اللغة هي طريقة إدراك "تضغط على المعلومات بشكل ضار"، حيث تقوم بتجريد العالم، لكنها تفقد أيضًا المعلومات الفيزيائية والإدراكية الغنية. العالم الحقيقي، لا توجد فيه كلمات أو قواعد أو نصوص، بل يوجد فيه فقط الفيزياء والحركة والهياكل ثلاثية الأبعاد.

لقد غير هذا التصور أيضا تصورها لما يجب أن تبدو عليه شركة الذكاء الاصطناعي. تحولت من أستاذة في جامعة ستانفورد إلى رائدة أعمال لأنها أدركت أن البحث الأكاديمي وحده لم يكن كافيا لنمذجة الذكاء المكاني - فقد تطلب استثمارا في الحوسبة الصناعية ، وجدولة الهندسة المعمارية على مستوى النظام ، وقدرة التعاون لأفضل المواهب عبر الحدود.

وكل هذا لا يمكن أن يتحقق إلا في شركة ذات مستوى تنظيمي عالٍ وقدرة بارزة على التعاون الهندسي الشامل.

▍****تطبيقات الذكاء الفضائي تتجاوز الروبوتات

بالنسبة لمعظم الناس ، لا يزال "النموذج العالمي" مصطلحا علميا مجردا. لكن Li Feifei و Martin يشيران إلى أن تطبيقاته تتجاوز القيادة الذاتية والروبوتات.

الإبداع بصري بطبيعته. يعتمد التصميم الصناعي وصناعة الأفلام والتكوين المعماري وحتى تطوير الألعاب على البناء والتحكم ثلاثي الأبعاد. وإذا كان لدى الذكاء الاصطناعي القدرة على نمذجة العالم ، فلن يتمكن فقط من "فهم" العالم ثلاثي الأبعاد ، ولكن أيضا "توليد" و "معالجة" الفضاء الافتراضي.

وصف مارتن أنه من خلال صورة واحدة فقط للطاولة، يمكن للنموذج استنتاج الشكل والمواد خلفها، وبالتالي بناء مشهد فضائي كامل. على هذا الأساس، يمكن للمستخدمين حتى قياس المساحة وإضافة أو حذف أو إعادة تصميم. هذه طريقة للتفاعل بين الإنسان والآلة أكثر حدسية وحرية من التعليمات النصية، كما تفتح أبعاد جديدة للتصميم والإبداع والتجارب المحاكاة.

وأشار لي فيفي كذلك إلى أن الفضاء الرقمي يجلب فرصة غير مسبوقة للتغيير: "لقد عاش البشر حتى الآن فقط في عالم مادي ثلاثي الأبعاد. لكن العالم الرقمي ، لأول مرة ، سيسمح لنا بدخول "الأكوان المتعددة". ”

تستشهد ببعض الأمثلة: الأكوان المصممة للروبوتات ، والأكوان للإبداع البشري ، والروايات ، والتواصل والسفر التجريبي. هذه المساحات ، التي كانت موجودة في السابق فقط في الخيال ، سيتم الآن إنشاؤها وفهمها واستخدامها وتحويلها حقا بواسطة الآلات.

▍****نموذج الأساس في المعركة التالية، نمذجة بانورامية ثلاثية الأبعاد

بالعودة إلى التكنولوجيا نفسها، أكدت لي في في أن World Labs لا تهدف فقط إلى إنشاء ذكاء اصطناعي "يمكنه الرؤية"، بل تريد أن تجعل الذكاء الاصطناعي يفهم الهيكل الثلاثي الأبعاد للعالم، والديناميات، والمنطق التركيبي. هذه ليست مجرد مشكلة هندسية أكثر صعوبة، بل هي فلسفة تمثيل جديدة تمامًا.

تعتقد أن الاكتشافات العلمية مثل بنية الحلزون المزدوج لـ DNA وكرة باكي، هي تجسيد للذكاء المكاني. لا يمكن استنتاج مثل هذه البنى الهندسية بالاعتماد فقط على اللغة. وهذا هو السبب في أن نموذج العالم لا يعزز فقط قدرة الآلات على الفهم، بل قد يفتح أيضًا طرقًا جديدة للإبداع في العلوم والفنون للبشر.

يخلص مارتن إلى أن ثورة LLM هي شهادة على حقيقة أنه عندما نحصل على هياكل البيانات والنماذج بشكل صحيح ، يمكن أن تتحسن قدرات الذكاء الاصطناعي بشكل كبير. الآن يعتقدون أن "النموذج العالمي" يقف عند نقطة تحول مماثلة.

▍****فهم وبناء مفتاح العالم

"نحن في الواقع نسير للخلف في مسار التطور." عندما طرح مارتن هذه الفكرة، انتقل الحوار بأكمله إلى المستوى الفلسفي.

اللغة هي واحدة من أحدث الوحدات في تطور الدماغ البشري ، في حين أن أنظمة الإدراك المكاني موجودة منذ زمن المفصليات وكانت موجودة منذ 500 مليون سنة. لا يمكن تسمية الذكاء الاصطناعي اليوم ، إذا كان "يتعلم اللغة" فقط ، ب "فهم العالم". فقط من خلال بناء نموذج فضائي شبيه بالإنسان يمكن أن يخطو الذكاء الاصطناعي حقا إلى باب "الذكاء المتجسد".

لخصت لي في في بلهجة ثابتة كما هي عادتها: "لقد كنت أنتظر هذا اليوم. ليس لأنني لا أؤمن بنماذج اللغة، ولكن لأنني أعلم تمامًا: العالم الحقيقي ليس مكونًا من النصوص."

نموذج العالم هو المفتاح الذي يمكّن الذكاء الاصطناعي من فهم وبناء هذا العالم حقًا. من I/O إلى iO، سيقود جوني آيف حركة تصميم جديدة - الذكاء الاصطناعي يعيد كتابة نموذج الحوسبة وتعريف الأجهزة، وهو أيضًا ساحة المعركة الجديدة بعد النماذج الكبيرة.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت