Як OpenLedger, що залучив фінансування в розмірі 10 мільйонів доларів, перепланує розподіл вартості даних?

У час, коли якість даних є найважливішою, той, хто зможе вирішити проблему розподілу вартості даних, зможе залучити найякісніші ресурси даних.

Автор: Haotian

Дані маркування, ця «важка робота», тихо перетворюється на ласий шматочок? Проект @OpenledgerHQ, який очолив Polychain та отримав понад 11,2 мільйона доларів фінансування, за допомогою унікального механізму PoA+infini-gram намагається вирішити «розподіл вартості даних», цю тривалу проблему, яку ігнорували. Давайте розглянемо це з технічної точки зору:

  1. Чесно кажучи, найбільшим «оригінальним гріхом» поточної індустрії штучного інтелекту є несправедливий розподіл вартості даних. PoA (доказ внеску) OpenLedger має на меті створити систему «слідкування за авторськими правами» для внесків у дані.

Конкретно: учасники даних завантажують вміст до конкретних DataNets, кожна точка даних буде назавжди зафіксована разом з метаданими учасників та хешем вмісту.

Після того, як модель була навчена на цих наборах даних, процес атрибуції відбувається на етапі висновку, тобто в момент, коли модель генерує вихід. PoA відстежує, які дані вплинули на цей вихід, аналізуючи діапазон збігу або оцінки впливу; ці записи визначають пропорційний вплив даних кожного з учасників.

Коли модель генерує витрати через міркування, PoA забезпечує точний розподіл прибутків відповідно до впливу кожного учасника - створюючи прозорі, справедливі та на блокчейні механізми винагород.

Іншими словами, PoA вирішує фундаментальне протиріччя економіки даних. У минулому логіка була простою і грубою – компанії, що займаються штучним інтелектом, брали величезні обсяги даних безкоштовно, а потім заробляли багато грошей на комерціалізації моделей, але постачальники даних нічого не отримували. Однак PoA реалізує «приватизацію даних» за допомогою технічних засобів, щоб кожна точка даних могла генерувати чітку економічну цінність.

Я вважаю, що як тільки цей механізм переходу від «моделі безкоштовного користування» до «раціонального розподілу» запрацює, логіка стимулювання внеску даних зовсім зміниться.

І крім того, PoA використовує ієрархічну стратегію для вирішення проблеми атрибуції моделей різного масштабу: маленька модель з кількома мільйонами параметрів може оцінити вплив кожної точки даних, аналізуючи функцію впливу моделі, обчислювальне навантаження ще можна витримати, тоді як для середніх та великих параметрів ця методика стає обчислювально недоцільною та неефективною. У цей момент необхідно застосувати Infini-gram, цю потужну зброю.

  1. Питання виникає, що таке технологія infini-gram? Проблема, яку вона має вирішити, звучить дуже складно: точно відстежувати джерело даних кожного виходу Token у середніх та великих параметрах чорного ящика.

Традиційні методи атрибуції в основному покладаються на аналіз функцій впливу моделей, але перед великими моделями вони в основному не працюють. Причина дуже проста: чим більша модель, тим складніші внутрішні обчислення, витрати на аналіз зростають експоненційно, що робить їх обчислення непрактичними і неефективними. Це абсолютно нереалістично в комерційному застосуванні.

Infini-gram використовує зовсім інший підхід: оскільки модель занадто складна всередині, вона безпосередньо шукає збіги в необроблених даних. Він будує індекс на основі масиву суфіксів, замінюючи традиційне n-граму фіксованого вікна динамічно вибраним суфіксом з найдовшим відповідністю. Простіше кажучи, коли модель виводить послідовність, Infini-gram виявить найдовший точний збіг у тренувальних даних для кожного контексту токена.

Таким чином, отримані показники продуктивності дійсно вражають: 1,4 трильйона токенів даних, запит займає лише 20 мілісекунд, зберігання кожного токена коштує всього 7 байтів. Що ще важливіше, не потрібно аналізувати внутрішню структуру моделі, не потрібно складних обчислень для точного приписування. Для тих AI-компаній, які вважають модель комерційною таємницею, це просто ідеальне рішення.

Слід зазначити, що існуючі на ринку рішення з атрибуції даних або неефективні, або недостатньо точні, або вимагають доступу до внутрішньої частини моделі. Infini-gram, можна сказати, знайшов баланс за цими трьома вимірами,

  1. Крім того, мені здається, що концепція dataNets, представлена OpenLedger, є особливо новаторською. На відміну від традиційної одноразової угоди з продажу даних, DataNets дозволяє постачальникам даних постійно отримувати частку прибутку під час використання даних у процесі інтерпретації.

Раніше маркування даних було важкою працею з мізерним та одноразовим доходом. Тепер це стало активом з постійним доходом, логіка стимулювання абсолютно інша.

Коли більшість проектів AI+Crypto все ще займаються орендою обчислювальної потужності, навчанням моделей та іншими відносно зрілими напрямками, OpenLedger вибрала найскладнішу частину - атрибуцію даних. Цей технологічний стек може переосмислити постачання даних для AI.

Адже в епоху, коли якість даних є найважливішою, той, хто зможе вирішити проблему розподілу вартості даних, зможе залучити найкращі ресурси даних.

Вище.

В загальному, комбінація OpenLedgerPoA + Infini-gram не тільки вирішує технічні проблеми, але що важливіше, вона пропонує нову логіку розподілу вартості для всієї галузі.

У умовах поступового зниження темпів гонки потужності та зростаючої конкуренції за якість даних ця технологічна траєкторія, безумовно, не буде єдиною. На цьому ринку буде багато різних рішень, які будуть конкурувати паралельно — деякі зосереджені на точності визначення причин, інші роблять акцент на ефективності витрат, а треті працюють над зручністю використання. Всі вони досліджують оптимальні рішення для розподілу вартості даних.

Врешті-решт, яка компанія зможе вийти на передову, залежить від того, чи зможе вона дійсно залучити достатню кількість постачальників даних і розробників.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити