هزيمة عائلة الألبكة بأكملها ، تتطلب طريقة المحاذاة الذاتية الجديدة للذكاء الاصطناعي Meta AI القليل جدًا من بيانات الملصقات اليدوية

المصدر الأصلي: Qubit

هل من الضروري تسمية البيانات يدويًا؟

تبني طريقة ماتا الجديدة ** تعليمات عالية الجودة تتبع ** (التعليمات التالية) نموذج لغوي مع كمية صغيرة فقط من البيانات الأولية.

بعبارة أخرى ، تتطلب نماذج اللغات الكبيرة قدرًا كبيرًا من بيانات التعليمات المصنفة بشريًا من أجل الضبط الدقيق ، ولكن الآن يمكن للنموذج أن يستنتج تلقائيًا الإرشادات من نص غير مسمى في مجموعة الويب.

ثم استخدم بيانات التعليمات التي أنشأتها بنفسك للتدريب ، والتي يمكن مقارنتها ببيانات الإنتاج والمباعة بنفسك.

ويتفوق النموذج المدرب بهذه الطريقة على الألبكة مفتوحة المصدر وسلسلة النماذج المشتقة الخاصة بها في اختبار معيار الألبكة.

غرد LeCun أن الدراسة كانت مثيرة من حيث المحاذاة الذاتية للنموذج:

لتلخيص ذلك في جملة من مستخدم الإنترنت:

بدأت الألبكة بتدريب نفسها.

الجملتان تلخصان الأمر على النحو التالي:

التعليمات المطلوبة في الأصل> مجموعة بيانات الاستجابة (تتطلب وضع العلامات اليدوية) ، الآن من الضروري فقط تدريب "نموذج عكسي" للاستجابة> التعليمات. يمكن تحويل أي نص بحرية إلى مجموعة بيانات تعليمات.

أصدر مستخدم آخر تعذيبًا روحانيًا:

هل أنا الوحيد الذي يعتقد أن هذا يشبه الطريق إلى الذكاء الخارق؟ إذا كان بإمكانك الحصول على LLMs التي تصبح أكثر ذكاءً وذكاءً بدون بيانات خارجية إضافية عالية الجودة ، فهذا نظام مغلق ذاتي التحسين. ربما تكون هناك حاجة فقط إلى نظام التعلم المعزز لتوفير الإشارة ، ومن ثم يمكن لتكرارات LLM الخاصة القيام بالباقي.

** الألبكة: استخدمت البيانات لتدريب الحوت **

تسمى هذه الطريقة الجديدة القابلة للتطوير ** Instruction Back Translation ** ، وقد أطلق ماتا على النموذج المدرب بهذه الطريقة - ** الأحدب ** (الحوت الأحدب ، المعروف أيضًا باسم الحوت الأحدب).

(قال الباحثون إن الاسم أُعطي بسبب علاقته بظهر البعير ، والحجم الأكبر للحوت يتوافق مع مقياس أكبر للنموذج)

خطوة تدريب أحدب هي ببساطة البدء بكمية صغيرة من البيانات المصنفة ، واستخدام نموذج اللغة لإنشاء تعليمات تتوافق مع النص غير المصنف ، وتشكيل بيانات تدريب المرشح. ثم استخدم النموذج لتقييم جودة البيانات واختيار بيانات عالية الجودة لإعادة التدريب. ثم يتم تكرار العملية لتحسين النموذج.

كما هو موضح في الشكل أعلاه ، فإن "المواد" التي يجب تحضيرها هي:

  • نموذج أساسي - LLaMa
  • A ** بيانات البذور (بيانات البذور) ** تتكون من ** 3200 مثال ** من مجموعة بيانات Open Assistant ، يتضمن كل مثال تعليمة ومخرجات مقابلة.
  • من مجموعة ClueWeb ، تم حذف 502K من النصوص غير المصنفة (بيانات غير مصنفة) التي تم إلغاء تكرارها وتصفيتها ومن المحتمل أن تكون الفقرات منخفضة الجودة.

تتوفر الأمثلة المصنفة ومصادر المجموعة ، والخطوة التالية هي مرحلة ** زيادة الذات **.

صقل الباحثون النموذج الأساسي LLaMa ببيانات البذور للحصول على ** نموذج تنبؤ التعليمات **. ثم يتم استخدام نموذج التنبؤ بالإرشادات هذا لاستنتاج تعليمات مرشح للنص غير المصنف. ثم ادمج تعليمات المرشح والنص (زوج التعليمات والمخرجات) كمرشح ** بيانات تدريب محسّنة ** ، وهي البيانات المعززة أ في الشكل أعلاه.

ومع ذلك ، لا يمكن استخدام بيانات A للتدريب المباشر ، لأن جودة النص غير المصنف نفسه غير متساوٍ ، كما أن تعليمات المرشح التي تم إنشاؤها بها ضوضاء.

لذا فإن الخطوات الرئيسية ** الإشراف الذاتي ** ضرورية ، باستخدام النموذج للتنبؤ بجودة البيانات واختيار عينات عالية الجودة للتدريب.

على وجه التحديد ، سجل الباحثون بيانات المرشح باستخدام نموذج تعليمي تم ضبطه بدقة على بيانات البذور فقط. النتيجة الكاملة هي خمس نقاط ، وسيتم اختيار أولئك الذين حصلوا على درجات أعلى كبيانات مرشحة للجولة التالية.

من أجل تحسين جودة تنبؤ تعليمات النموذج ، قام الباحثون بتدريب النموذج باستخدام البيانات المرشحة ** التكرارية ** ، وفي التدريب التكراري ، ستتحسن جودة البيانات بشكل أفضل.

بالإضافة إلى ذلك ، عند الجمع بين البيانات الأولية وبيانات الزيادة لضبط النموذج ، فإنهم يستخدمون أيضًا علامات تلميحات مختلفة للنظام للتمييز بين مصدري البيانات هذين:

  • نصائح استخدام بيانات البذور "أجب بأسلوب مساعد AI."
  • تصفية البيانات باستخدام المطالبة "الإجابة مع المعرفة من بحث الويب".

بعد تكرارين ، يكون النموذج النهائي طازجًا خارج الفرن.

** دمج نوعين من بيانات التدريب: 1 + 1> 2 **

دعونا نلقي نظرة على نتائج تحليل الباحثين:

** ** ###### ** △ ** تنوع التعليمات لبيانات البذور والبيانات المحسّنة. الدائرة الداخلية هي فعل الجذر المشترك والدائرة الخارجية هي الاسم الشائع الذي يتوافق معها.

يوضح الشكل أعلاه تنوع التعليمات مع 8٪ بيانات أولية و 13٪ إحصاءات بيانات محسّنة.

يمكن أن نرى بشكل بديهي أن تنوع البيانات المحسّن أقوى في الجزء الطويل ، وأن البيانات المحسّنة تكمل بيانات البذور المصطنعة الحالية ، مكملة للأنواع التي لا تظهر في بيانات البذور.

ثانيًا ، قارن الباحثون ثلاث مجموعات بيانات مُعزَّزة: البيانات المُعزَّزة ، جميعها (بدون إدارة ذاتية) ،

، بيانات أقل ولكن جودة أعلى

لاحظت التجارب أنه على الرغم من أن مجموعة البيانات أصبحت أصغر ، فقد تم أيضًا تحسين أداء النموذج مع تحسين جودة بيانات التدريب.

** ** ###### ** △ ** استخدم التصفية الذاتية لتقييم بيانات التعزيز الذاتي ذات الأحجام والصفات المختلفة للبيانات. يمثل المحور y معدل الفوز باستخدام text-davinci-003 عند ضبط LLaMa 7B بحجم وجودة بيانات معينين.

(text-davinci-003 ، تعليمات تستند إلى GPT-3 تتبع نموذجًا تم ضبطه بدقة على بيانات التعليمات المكتوبة بشريًا ، والمخرجات ، والاستجابات النموذجية ، والتفضيلات البشرية باستخدام التعلم التعزيزي)

أخيرًا ، دعنا نلقي نظرة على النتائج على لوحة المتصدرين في Alpaca. يتفوق الحدباء بشكل كبير على الطرق الأخرى دون الاعتماد على البيانات المقطرة ويغلق الفجوة بنماذج الملكية.

غير مقطر (غير مقطر) ، يشير إلى نموذج تدريب لا يعتمد على أي نموذج خارجي كأي شكل من أشكال الإشراف ؛ مقطر (مقطر) ، يشير إلى إدخال نموذج خارجي أكثر قوة أثناء عملية التدريب ، مثل باستخدام البيانات المقطرة من نموذج خارجي ؛ يشير الملكية إلى النماذج المدربة باستخدام البيانات والتقنيات الاحتكارية.

** ** ###### ** △ ** مقارنة بمعدل فوز text-davinci-003

بالمقارنة مع الموديلات مفتوحة المصدر LIMA 65B و Guanaco 65B و Falcon-Instruct 40B والنماذج المملوكة davinci-003 و Claude ، فإن أداء Humpback يتماشى أيضًا مع التفضيلات البشرية.

بالإضافة إلى ذلك ، لاحظ الباحثون قيود الطريقة:

نظرًا لأن البيانات النصية المستخدمة للتدريب تأتي من مجموعة الويب ، فقد يؤدي النموذج الدقيق إلى تضخيم تحيز بيانات الويب. على الرغم من مقارنته بالنموذج الأساسي ، يعمل النموذج الدقيق على تحسين دقة اكتشاف التحيز. ومع ذلك ، هذا لا يعني أنه سيتم حل المشكلة بالكامل.

البوابة: رابط ورقي)

ارتباط مرجعي: [1] [2] [3]

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت