في عصر جودة البيانات، من يستطيع حل مشكلة توزيع قيمة البيانات، هو من يمكنه جذب أفضل موارد البيانات.
كتابة: هاوتيان
هل أصبحت «تسمية البيانات» هذه «العمل الشاق» تتحول بهدوء إلى فرصة جذابة؟ إن شركة @OpenledgerHQ التي قادتها Polychain، والتي حصلت على تمويل يزيد عن 11.2 مليون دولار، تستهدف من خلال آلية PoA+infini-gram الفريدة «توزيع قيمة البيانات»، وهي نقطة مؤلمة تم تجاهلها لفترة طويلة. دعنا نوضح من منظور تقني:
بصراحة، أكبر "خطيئة" في صناعة الذكاء الاصطناعي الحالية هي عدم العدالة في توزيع قيمة البيانات. ما تسعى إليه OpenLedger من خلال نظام PoA (إثبات المساهمة) هو إنشاء نظام "تتبع حقوق الطبع والنشر" لمساهمات البيانات.
بشكل محدد: سيقوم المساهمون في البيانات بتحميل المحتوى إلى DataNets في مجالات معينة، وسيتم تسجيل كل نقطة بيانات بشكل دائم مع بيانات المساهمين وهاش المحتوى.
عندما يتم تدريب النموذج على هذه المجموعات البيانية، ستتم عملية الاستدلال في مرحلة الاستدلال، وهي اللحظة التي ينتج فيها النموذج المخرجات. يقوم PoA بتتبع نقاط البيانات التي أثرت على هذا المخرج من خلال تحليل نطاق المطابقة أو درجات التأثير، حيث تحدد هذه السجلات نسبة تأثير بيانات كل مساهم.
عندما تنتج النماذج التكاليف من خلال الاستدلال، يضمن PoA توزيع الأرباح بدقة بناءً على تأثير كل مساهم - مما يخلق آلية مكافآت شفافة وعادلة وعلى السلسلة.
بمعنى آخر ، يحل PoA التناقض الأساسي لاقتصاديات البيانات. في الماضي ، كان المنطق بسيطا وفظا - أخذت شركات الذكاء الاصطناعي كميات هائلة من البيانات مجانا ثم جنت الكثير من المال من خلال تسويق النماذج ، لكن المساهمين في البيانات لم يحصلوا على شيء. ومع ذلك ، فإن PoA يحقق "خصخصة البيانات" من خلال الوسائل التقنية ، بحيث يمكن لكل نقطة بيانات أن تولد قيمة اقتصادية واضحة.
أعتقد أن آلية التحويل هذه من "نموذج الاستفادة المجانية" إلى "التوزيع حسب العمل" بمجرد أن تعمل بشكل صحيح، ستتغير تمامًا منطق تحفيز المساهمة في البيانات.
علاوة على ذلك، اعتمد PoA استراتيجية متعددة المستويات لمعالجة مشكلة النسب للأحجام المختلفة من النماذج: يمكن للنماذج الصغيرة التي تحتوي على ملايين من المعلمات تقدير تأثير كل نقطة بيانات من خلال تحليل دالة تأثير النموذج، حيث يمكن تحمل عبء الحساب، بينما تصبح هذه الطريقة غير ممكنة وغير فعالة في النماذج المتوسطة والكبيرة. في هذه الحالة، يجب استخدام سلاح إنفيني-جرام القوي.
السؤال هو، ما هي تقنية infini-gram؟ المشكلة التي تسعى لحلها تبدو غريبة جداً: تتبع مصدر البيانات بدقة لكل Token ناتج في نماذج الصندوق الأسود ذات معلمات متوسطة إلى كبيرة.
تعتمد طرق الإسناد التقليدية بشكل أساسي على تحليل دالة تأثير النموذج، ولكنها تواجه صعوبة كبيرة أمام النماذج الكبيرة. السبب بسيط: كلما كان النموذج أكبر، زادت تعقيد العمليات الداخلية، مما يؤدي إلى زيادة تكاليف التحليل بشكل أسي، مما يجعله غير مجدي وغير فعال من الناحية الحسابية. وهذا غير واقعي تمامًا في التطبيقات التجارية.
إنفيني-جرام غيرت الفكرة تمامًا: بما أن النموذج الداخلي معقد جدًا، فلنبحث عن التطابق مباشرة في البيانات الأصلية. إنها تعتمد على بناء الفهرس باستخدام مصفوفة اللاحقة، وتستبدل اللاحقة الأطول المتطابقة التي يتم اختيارها ديناميكيًا بواجهة n-جرام الثابتة التقليدية. لفهم ذلك ببساطة، عندما ينتج النموذج تسلسلًا معينًا، سيقوم إنفيني-جرام بالتعرف على أطول تطابق دقيق في بيانات التدريب لكل سياق من توكن.
إن البيانات الناتجة عن الأداء التي تم الحصول عليها بهذه الطريقة مذهلة حقًا، حيث يحتوي مجموعة البيانات على 1.4 تريليون توكن، ويستغرق الاستعلام 20 مللي ثانية فقط، كما أن كل توكن يتم تخزينه يتطلب 7 بايت فقط. والأهم من ذلك، أنه لا حاجة لتحليل الهيكل الداخلي للنموذج، ولا حاجة لحسابات معقدة، يمكن أن يتم الاستنتاج بدقة. بالنسبة لتلك الشركات في مجال الذكاء الاصطناعي التي تعتبر النموذج سرًا تجاريًا، فإن هذا يعد حلاً مخصصًا تمامًا.
يجب أن نعرف أن حلول توجيه البيانات المتاحة في السوق إما غير فعالة أو غير دقيقة أو تحتاج إلى الوصول إلى النماذج الداخلية. إن إنفيني-غرام يعتبر نقطة توازن في هذه الأبعاد الثلاثة.
بالإضافة إلى ذلك، أشعر أن مفهوم مجموعة البيانات على السلسلة الذي قدمته OpenLedger، dataNets، مبتكر بشكل خاص. على عكس التقليدي في معاملات البيانات الذي يُعتبر صفقة واحدة فقط، فإن DataNets تتيح لمساهمي البيانات الاستمتاع بمشاركة الأرباح المستمرة عند استخدام البيانات في عمليات الاستدلال.
كانت عملية وضع العلامات على البيانات في الماضي عملاً شاقاً، مع عائدات ضئيلة ومرة واحدة. الآن أصبحت أصولاً تحقق عائدات مستمرة، ومنطق الحوافز مختلف تماماً.
عندما كانت معظم مشاريع AI+Crypto لا تزال تعمل في مجالات تأجير قوة الحوسبة وتدريب النماذج، اختارت OpenLedger التركيز على مجال نسبة البيانات، وهو أحد أصعب التحديات. قد تعيد هذه المجموعة من التقنيات تعريف جانب إمداد بيانات الذكاء الاصطناعي.
في النهاية، في عصر جودة البيانات، من يستطيع حل مشكلة توزيع قيمة البيانات، هو من يمكنه جذب أفضل موارد البيانات.
أعلاه.
بشكل عام، فإن مجموعة OpenLedgerPoA + Infini-gram لا تحل فقط المشكلات التقنية، بل الأهم من ذلك أنها توفر منطق توزيع قيمة جديد تمامًا للصناعة بأكملها.
في ظل تراجع سباق تسليح قوة الحوسبة وزيادة حدة المنافسة على جودة البيانات، من المؤكد أن هذا النوع من المسارات التقنية لن يكون فريدًا. ستظهر في هذا المجال مجموعة من الحلول التي تتنافس جنبًا إلى جنب - بعضها يركز على دقة الإسناد، وبعضها يبرز كفاءة التكلفة، بينما يعمل البعض الآخر على تحسين سهولة الاستخدام. كل منها يستكشف الحل الأمثل لتوزيع قيمة البيانات.
في النهاية، أي جهة ستنجح في النهاية يعتمد في الأساس على ما إذا كانت قادرة على جذب عدد كافٍ من مزودي البيانات والمطورين.
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
كيف تعيد OpenLedger تشكيل توزيع قيمة البيانات بعد تمويل بقيمة 10 ملايين دولار؟
كتابة: هاوتيان
هل أصبحت «تسمية البيانات» هذه «العمل الشاق» تتحول بهدوء إلى فرصة جذابة؟ إن شركة @OpenledgerHQ التي قادتها Polychain، والتي حصلت على تمويل يزيد عن 11.2 مليون دولار، تستهدف من خلال آلية PoA+infini-gram الفريدة «توزيع قيمة البيانات»، وهي نقطة مؤلمة تم تجاهلها لفترة طويلة. دعنا نوضح من منظور تقني:
بشكل محدد: سيقوم المساهمون في البيانات بتحميل المحتوى إلى DataNets في مجالات معينة، وسيتم تسجيل كل نقطة بيانات بشكل دائم مع بيانات المساهمين وهاش المحتوى.
عندما يتم تدريب النموذج على هذه المجموعات البيانية، ستتم عملية الاستدلال في مرحلة الاستدلال، وهي اللحظة التي ينتج فيها النموذج المخرجات. يقوم PoA بتتبع نقاط البيانات التي أثرت على هذا المخرج من خلال تحليل نطاق المطابقة أو درجات التأثير، حيث تحدد هذه السجلات نسبة تأثير بيانات كل مساهم.
عندما تنتج النماذج التكاليف من خلال الاستدلال، يضمن PoA توزيع الأرباح بدقة بناءً على تأثير كل مساهم - مما يخلق آلية مكافآت شفافة وعادلة وعلى السلسلة.
بمعنى آخر ، يحل PoA التناقض الأساسي لاقتصاديات البيانات. في الماضي ، كان المنطق بسيطا وفظا - أخذت شركات الذكاء الاصطناعي كميات هائلة من البيانات مجانا ثم جنت الكثير من المال من خلال تسويق النماذج ، لكن المساهمين في البيانات لم يحصلوا على شيء. ومع ذلك ، فإن PoA يحقق "خصخصة البيانات" من خلال الوسائل التقنية ، بحيث يمكن لكل نقطة بيانات أن تولد قيمة اقتصادية واضحة.
أعتقد أن آلية التحويل هذه من "نموذج الاستفادة المجانية" إلى "التوزيع حسب العمل" بمجرد أن تعمل بشكل صحيح، ستتغير تمامًا منطق تحفيز المساهمة في البيانات.
علاوة على ذلك، اعتمد PoA استراتيجية متعددة المستويات لمعالجة مشكلة النسب للأحجام المختلفة من النماذج: يمكن للنماذج الصغيرة التي تحتوي على ملايين من المعلمات تقدير تأثير كل نقطة بيانات من خلال تحليل دالة تأثير النموذج، حيث يمكن تحمل عبء الحساب، بينما تصبح هذه الطريقة غير ممكنة وغير فعالة في النماذج المتوسطة والكبيرة. في هذه الحالة، يجب استخدام سلاح إنفيني-جرام القوي.
تعتمد طرق الإسناد التقليدية بشكل أساسي على تحليل دالة تأثير النموذج، ولكنها تواجه صعوبة كبيرة أمام النماذج الكبيرة. السبب بسيط: كلما كان النموذج أكبر، زادت تعقيد العمليات الداخلية، مما يؤدي إلى زيادة تكاليف التحليل بشكل أسي، مما يجعله غير مجدي وغير فعال من الناحية الحسابية. وهذا غير واقعي تمامًا في التطبيقات التجارية.
إنفيني-جرام غيرت الفكرة تمامًا: بما أن النموذج الداخلي معقد جدًا، فلنبحث عن التطابق مباشرة في البيانات الأصلية. إنها تعتمد على بناء الفهرس باستخدام مصفوفة اللاحقة، وتستبدل اللاحقة الأطول المتطابقة التي يتم اختيارها ديناميكيًا بواجهة n-جرام الثابتة التقليدية. لفهم ذلك ببساطة، عندما ينتج النموذج تسلسلًا معينًا، سيقوم إنفيني-جرام بالتعرف على أطول تطابق دقيق في بيانات التدريب لكل سياق من توكن.
إن البيانات الناتجة عن الأداء التي تم الحصول عليها بهذه الطريقة مذهلة حقًا، حيث يحتوي مجموعة البيانات على 1.4 تريليون توكن، ويستغرق الاستعلام 20 مللي ثانية فقط، كما أن كل توكن يتم تخزينه يتطلب 7 بايت فقط. والأهم من ذلك، أنه لا حاجة لتحليل الهيكل الداخلي للنموذج، ولا حاجة لحسابات معقدة، يمكن أن يتم الاستنتاج بدقة. بالنسبة لتلك الشركات في مجال الذكاء الاصطناعي التي تعتبر النموذج سرًا تجاريًا، فإن هذا يعد حلاً مخصصًا تمامًا.
يجب أن نعرف أن حلول توجيه البيانات المتاحة في السوق إما غير فعالة أو غير دقيقة أو تحتاج إلى الوصول إلى النماذج الداخلية. إن إنفيني-غرام يعتبر نقطة توازن في هذه الأبعاد الثلاثة.
كانت عملية وضع العلامات على البيانات في الماضي عملاً شاقاً، مع عائدات ضئيلة ومرة واحدة. الآن أصبحت أصولاً تحقق عائدات مستمرة، ومنطق الحوافز مختلف تماماً.
عندما كانت معظم مشاريع AI+Crypto لا تزال تعمل في مجالات تأجير قوة الحوسبة وتدريب النماذج، اختارت OpenLedger التركيز على مجال نسبة البيانات، وهو أحد أصعب التحديات. قد تعيد هذه المجموعة من التقنيات تعريف جانب إمداد بيانات الذكاء الاصطناعي.
في النهاية، في عصر جودة البيانات، من يستطيع حل مشكلة توزيع قيمة البيانات، هو من يمكنه جذب أفضل موارد البيانات.
أعلاه.
بشكل عام، فإن مجموعة OpenLedgerPoA + Infini-gram لا تحل فقط المشكلات التقنية، بل الأهم من ذلك أنها توفر منطق توزيع قيمة جديد تمامًا للصناعة بأكملها.
في ظل تراجع سباق تسليح قوة الحوسبة وزيادة حدة المنافسة على جودة البيانات، من المؤكد أن هذا النوع من المسارات التقنية لن يكون فريدًا. ستظهر في هذا المجال مجموعة من الحلول التي تتنافس جنبًا إلى جنب - بعضها يركز على دقة الإسناد، وبعضها يبرز كفاءة التكلفة، بينما يعمل البعض الآخر على تحسين سهولة الاستخدام. كل منها يستكشف الحل الأمثل لتوزيع قيمة البيانات.
في النهاية، أي جهة ستنجح في النهاية يعتمد في الأساس على ما إذا كانت قادرة على جذب عدد كافٍ من مزودي البيانات والمطورين.