انفجر فصل ChatGPT في Wu Enda: فقد تخلى الذكاء الاصطناعي عن كتابة الكلمات بشكل عكسي ، لكنه فهم العالم بأسره

巴比特_

2023-06-04 02:03:06

المصدر: Qubit

بشكل غير متوقع ، حتى اليوم ، ستظل ChatGPT ترتكب أخطاء منخفضة المستوى؟

أشار الله وو إندا إلى ذلك في الفصل الأخير:

ChatGPT لا يعكس الكلمات!

على سبيل المثال ، دعها تعكس كلمة lollipop ، والمخرج هو Pilollol ، وهو أمر محير تمامًا.

أوه ، هذا حقًا ملفت للنظر قليلاً.

لدرجة أنه بعد نشر مستخدمي الإنترنت الذين حضروا الفصل على Reddit ، اجتذبوا على الفور عددًا كبيرًا من المتفرجين ، وارتفعت شعبية ** المشاركات إلى 6 آلاف **.

وهذا ليس خطأ عرضيًا ، فقد وجد مستخدمو الإنترنت أن ChatGPT غير قادر بالفعل على إكمال هذه المهمة ، ونتيجة اختبارنا الشخصي هي نفسها.

△ مقاسة ChatGPT (GPT-3.5)

ولا حتى الكثير من المنتجات بما في ذلك Bard و Bing و Wenxin Yiyan.

△ مقاسة الشاعر

اختبار قلب وعقل كلمة

تابع بعض الأشخاص واشتكوا من أن ChatGPT فظيع في التعامل مع هذه المهام البسيطة ** بالكلمات **.

على سبيل المثال ، كان لعب Wordle ، وهي لعبة الكلمات الشائعة سابقًا ، كارثة ولم يتم القيام به بشكل صحيح.

ايه؟ لماذا؟

المفتاح هو الرمز المميز

يكمن سبب هذه الظاهرة في ** الرمز المميز **. الرموز هي أكثر تسلسلات الأحرف شيوعًا في النص ، وتستخدم النماذج الكبيرة الرموز لمعالجة النص.

يمكن أن تكون كلمة كاملة أو جزء من كلمة. يفهم النموذج الكبير العلاقة الإحصائية بين هذه الرموز وهو جيد في إنشاء الرمز المميز التالي.

لذلك عند التعامل مع المهمة الصغيرة لعكس الكلمات ، فقد يقلب كل رمز ، وليس الحرف.

هذا أكثر وضوحًا في السياق الصيني: الكلمة هي رمز ، أو الكلمة هي رمز.

على سبيل المثال في البداية ، حاول شخص ما فهم عملية التفكير في ChatGPT.

لفهم أكثر سهولة ، أصدرت OpenAI حتى GPT-3 ** Tokenizer **.

على سبيل المثال ، بالنسبة لكلمة lollipop ، ستفهم GPT-3 إلى ثلاثة أجزاء: ** I، oll، ipop **.

وفقًا لاستنتاج التجربة ، ولدت هذه القواعد غير المكتوبة.

1 رمز 4 أحرف إنجليزية ≈ 3/4 كلمات ؛
100 رمز ≈ 75 كلمة ؛
جملة أو جملتان 30 رمزًا ؛
فقرة ≈ 100 رمز ، 1500 كلمة ≈ 2048 توكن ؛

تعتمد طريقة تقسيم الكلمات أيضًا على اللغة. وفقًا للإحصاءات السابقة ، يبلغ عدد الرموز المميزة المستخدمة في اللغة الصينية ** 1.2 إلى 2.7 ضعفًا ** عن اللغة الإنجليزية.

كلما زادت نسبة الرمز المميز إلى الحرف (الرمز المميز للكلمة) ، ارتفعت تكلفة المعالجة. ** لذا فإن معالجة الرموز المميزة الصينية أغلى من الإنجليزية **.

يمكن أن نفهم أن ** الرمز المميز هو السبيل للنموذج الكبير لفهم العالم الحقيقي للبشر **. إنه بسيط للغاية ويقلل بشكل كبير من تعقيد الذاكرة والوقت.

ومع ذلك ، هناك مشكلة في ترميز الكلمات ، والتي ستجعل من الصعب على النموذج تعلم تمثيلات مدخلات ذات مغزى.أكثر تمثيل بديهي هو أنه لا يستطيع فهم معنى الكلمات.

في ذلك الوقت ، تم تحسين Transformers وفقًا لذلك ، على سبيل المثال ، تم تقسيم كلمة معقدة وغير شائعة إلى رمز مميز ذي معنى ورمز مميز مستقل.

تمامًا مثل ** مزعج ** مقسم إلى ** "مزعج" و "لي" ** ، يحتفظ الأول بدلالاته بينما يظهر الأخير بشكل متكرر.

وقد ساهم هذا أيضًا في التأثيرات المذهلة لـ ChatGPT ومنتجات النماذج واسعة النطاق الأخرى اليوم ، والتي يمكنها فهم اللغة البشرية جيدًا.

بالنسبة لمهمة صغيرة مثل ** غير قادر على التعامل مع عكس الكلمات ** ، هناك حل طبيعي.

الطريقة الأبسط والمباشرة هي فصل الكلمات بنفسك ~

أو يمكنك السماح لـ ChatGPT خطوة بخطوة ، قم أولاً بترميز كل حرف.

أو دعها تكتب برنامجًا يعكس الحروف ، ثم تكون نتيجة البرنامج صحيحة. (رأس الكلب)

ومع ذلك ، يمكن أيضًا استخدام GPT-4 ، ولا توجد مثل هذه المشكلة في القياس الفعلي.

△ المقاس GPT-4

باختصار ، الرمز المميز هو حجر الزاوية للذكاء الاصطناعي لفهم اللغة الطبيعية.

كجسر للذكاء الاصطناعي لفهم اللغة الطبيعية للإنسان ، أصبحت أهمية الرمز المميز أكثر وضوحًا.

لقد أصبح محددًا رئيسيًا لأداء نماذج الذكاء الاصطناعي ، وهو أيضًا معيار فوترة للنماذج الكبيرة.

حتى أن الأدب رمزي

كما هو مذكور أعلاه ، يمكن أن يسهل الرمز المميز النموذج لالتقاط ** معلومات دلالية دقيقة ** ، مثل معنى الكلمة وترتيب الكلمات والبنية النحوية وما إلى ذلك. يعد ترتيبها وموقعها أمرًا بالغ الأهمية في مهام نمذجة التسلسل مثل نمذجة اللغة والترجمة الآلية وتوليد النص وما إلى ذلك.

فقط عندما يفهم النموذج بدقة موضع وسياق كل رمز مميز في التسلسل ، يمكنه التنبؤ بالمحتوى بشكل أفضل وتقديم مخرجات معقولة.

لذلك ، فإن جودة وكمية ** الرمز المميز لهما تأثير مباشر على تأثير النموذج **.

اعتبارًا من هذا العام ، عندما يتم إصدار المزيد والمزيد من الطرز الكبيرة ، سيتم التأكيد على عدد الرموز المميزة. على سبيل المثال ، ذكرت تفاصيل التعرض لـ Google PaLM 2 أنها استخدمت 3.6 تريليون رمز مميز للتدريب.

وقال العديد من الشخصيات البارزة في الصناعة أيضًا أن الرمز المميز هو المفتاح حقًا!

قال Andrej Karpathy ، عالم الذكاء الاصطناعي الذي قفز من Tesla إلى OpenAI هذا العام ، في خطابه:

المزيد من الرموز يمكن أن تجعل النموذج يفكر بشكل أفضل.

وأكد أن أداء النموذج لا يتحدد بحجم المعلمات وحدها.

على سبيل المثال ، مقياس معلمة LLaMA أصغر بكثير من مقياس GPT-3 (65B مقابل 175B) ، ولكن نظرًا لأنه يستخدم المزيد من الرموز المميزة للتدريب (1.4T مقابل 300B) ، فإن LLaMA أكثر قوة.

وبفضل تأثيرها المباشر على أداء النموذج ، لا يزال ** الرمز المميز هو معيار الفوترة لنماذج الذكاء الاصطناعي **.

خذ معيار التسعير الخاص بـ OpenAI كمثال ، فهم يقومون بالدفع بوحدات من 1K Tokens. نماذج مختلفة وأنواع مختلفة من الرموز لها أسعار مختلفة.

باختصار ، بعد الدخول إلى بوابة حقل النموذج الكبير لمنظمة العفو الدولية ، ستجد أن الرمز المميز هو نقطة معرفة لا مفر منها.

حسنًا ، حتى أنها ولدت أدبًا رمزيًا ...

ومع ذلك ، تجدر الإشارة إلى أن ما يجب ترجمة الرمز المميز إليه في العالم الصيني لم يتم تحديده بالكامل بعد.

دائمًا ما تكون الترجمة الحرفية لكلمة "رمز" غريبة بعض الشيء.

تعتقد GPT-4 أنه من الأفضل تسميتها "عنصر كلمة" أو "رمز مميز" ، ما رأيك؟

ارتباط مرجعي: [1] [2] [3]

شاهد النسخة الأصلية

المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
#BTC#
239k المنشورات
#PI#
237k المنشورات
#ETH#
154k المنشورات
4#GateioInto11#
80k المنشورات
5#ContentStar#
67k المنشورات
6#GT#
65k المنشورات
7#BOME#
61k المنشورات
8#DOGE#
59k المنشورات
9#MAGA#
53k المنشورات
10#SLERF#
51k المنشورات

تثبيت

خريطة الموقع