В эпоху, когда качество данных имеет решающее значение, тот, кто сможет решить проблему распределения ценности данных, сможет привлечь самые качественные ресурсы данных.
Автор: Haotian
Данные о маркировке, эта «трудная и утомительная работа», тихо превращается в лакомый кусочек? Этот @OpenledgerHQ, получивший финансирование более 11,2 миллиона долларов от Polychain, с уникальным механизмом PoA+infini-gram нацеливается именно на «распределение ценности данных», долго игнорируемую проблему. Давайте с технической точки зрения разберемся:
Честно говоря, самым большим «грехом» текущей AI-индустрии является несправедливое распределение ценности данных. PoA (доказательство вклада) OpenLedger направлена на создание системы «отслеживания авторских прав» для вклада данных.
В частности: Данные участники загружают контент в определенные области DataNets, каждая точка данных будет постоянно записываться вместе с метаданными участника и хешем контента.
После того как модель была обучена на этих наборах данных, процесс атрибуции будет осуществляться на этапе вывода, то есть в момент генерации выходных данных моделью. PoA отслеживает, какие данные повлияли на этот вывод, анализируя диапазон совпадений или баллы влияния, эти записи определяют пропорциональное влияние данных каждого вкладчика.
Когда модель генерирует затраты через вывод, PoA гарантирует, что прибыль точно распределяется в зависимости от влияния каждого участника — создается прозрачный, справедливый и на цепочке механизм вознаграждения.
Иными словами, PoA решает основное противоречие экономике данных. Прошлая логика была простой и грубой — компании ИИ бесплатно получали огромные объемы данных, а затем зарабатывали миллионы на коммерциализации моделей, в то время как поставщики данных не получали ничего. Однако PoA с помощью технологий реализует «приватизацию данных», позволяя каждой точке данных генерировать четко определенную экономическую ценность.
Я считаю, что как только механизм перехода от «бесплатного использования» к «распределению по труду» будет запущен, логика стимулов за вклад в данные полностью изменится.
Кроме того, PoA использует иерархическую стратегию для решения проблемы атрибуции моделей разных масштабов: малые модели с миллионами параметров могут оценивать влияние каждой точки данных, анализируя функцию влияния модели, что требует разумных вычислительных затрат, тогда как для моделей среднего и большого размера такой подход становится вычислительно непрактичным и неэффективным. В этом случае необходимо использовать мощное средство Infini-gram.
Вопрос в том, что такое технология infini-gram? Проблема, которую она должна решить, звучит очень странно: точно отслеживать источник данных каждого выходного токена в черном ящике модели со средними и крупными параметрами.
Традиционные методы атрибуции в основном полагаются на анализ функций влияния модели, но перед большими моделями они в основном бездействуют. Причина проста: чем больше модель, тем сложнее внутренние вычисления, и затраты на анализ растут экспоненциально, что делает вычисления непрактичными и неэффективными. Это совершенно нереально в коммерческом применении.
Infini-gram полностью изменила подход: если модель слишком сложна, то просто ищем совпадения в исходных данных. Он строит индекс на основе суффиксного массива, используя динамически выбираемое самое длинное совпадающее суффикс вместо традиционного фиксированного окна n-gram. Проще говоря, когда модель выдает какую-либо последовательность, Infini-gram будет для каждого токена распознавать самый длинный точный матч в обучающих данных.
Таким образом, производственные данные действительно впечатляют: 1,4 триллиона токенов, запрос занимает всего 20 миллисекунд, а хранение каждого токена требует лишь 7 байт. Более того, не требуется анализировать внутреннюю структуру модели и проводить сложные вычисления, чтобы точно провести атрибуцию. Для тех AI-компаний, которые рассматривают модели как коммерческую тайну, это просто идеальное решение.
Следует знать, что существующие на рынке решения для атрибуции данных либо неэффективны, либо недостаточно точны, либо требуют доступа к внутренним моделям. Infini-gram, можно сказать, нашел баланс по этим трем измерениям,
Кроме того, мне кажется, что концепция наборов данных dataNets, предложенная OpenLedger, особенно актуальна. В отличие от традиционной одноразовой продажи данных, DataNets позволяет участникам данных продолжать получать долю от доходов, когда данные используются в процессе вывода заключений.
Ранее аннотация данных была тяжелой работой с низкой и однократной прибылью. Теперь это стало активом с постоянным доходом, логика стимулов совершенно иная.
Когда большинство проектов AI+Crypto все еще занимаются арендой вычислительной мощности и обучением моделей — относительно зрелыми направлениями, OpenLedger выбрала задание данных, самый трудный из всех аспектов. Этот стек технологий может переопределить сторону предложения данных AI.
В конце концов, в эпоху, когда качество данных имеет решающее значение, тот, кто сможет решить проблему распределения ценности данных, сможет привлечь самые качественные ресурсы данных.
Выше.
В целом, комбинация OpenLedgerPoA + Infini-gram не только решает технические проблемы, но и, что более важно, предоставляет новой логике распределения ценностей для всей отрасли.
В условиях, когда гонка за вычислительной мощностью постепенно затихает, а конкуренция за качество данных становится все более ожесточенной, такие технологические маршруты определенно не будут уникальными. На этой арене будут представлены различные решения, конкурирующие параллельно — некоторые сосредоточатся на точности атрибуции, другие будут акцентировать внимание на эффективности затрат, а некоторые будут работать над удобством использования. Каждый из них исследует оптимальное распределение ценности данных.
В конечном итоге, кто сможет выйти на рынок, будет зависеть от того, смогут ли они действительно привлечь достаточное количество поставщиков данных и разработчиков.
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Как OpenLedger, собравший финансирование в 10 миллионов долларов, переосмысляет распределение стоимости данных?
Автор: Haotian
Данные о маркировке, эта «трудная и утомительная работа», тихо превращается в лакомый кусочек? Этот @OpenledgerHQ, получивший финансирование более 11,2 миллиона долларов от Polychain, с уникальным механизмом PoA+infini-gram нацеливается именно на «распределение ценности данных», долго игнорируемую проблему. Давайте с технической точки зрения разберемся:
В частности: Данные участники загружают контент в определенные области DataNets, каждая точка данных будет постоянно записываться вместе с метаданными участника и хешем контента.
После того как модель была обучена на этих наборах данных, процесс атрибуции будет осуществляться на этапе вывода, то есть в момент генерации выходных данных моделью. PoA отслеживает, какие данные повлияли на этот вывод, анализируя диапазон совпадений или баллы влияния, эти записи определяют пропорциональное влияние данных каждого вкладчика.
Когда модель генерирует затраты через вывод, PoA гарантирует, что прибыль точно распределяется в зависимости от влияния каждого участника — создается прозрачный, справедливый и на цепочке механизм вознаграждения.
Иными словами, PoA решает основное противоречие экономике данных. Прошлая логика была простой и грубой — компании ИИ бесплатно получали огромные объемы данных, а затем зарабатывали миллионы на коммерциализации моделей, в то время как поставщики данных не получали ничего. Однако PoA с помощью технологий реализует «приватизацию данных», позволяя каждой точке данных генерировать четко определенную экономическую ценность.
Я считаю, что как только механизм перехода от «бесплатного использования» к «распределению по труду» будет запущен, логика стимулов за вклад в данные полностью изменится.
Кроме того, PoA использует иерархическую стратегию для решения проблемы атрибуции моделей разных масштабов: малые модели с миллионами параметров могут оценивать влияние каждой точки данных, анализируя функцию влияния модели, что требует разумных вычислительных затрат, тогда как для моделей среднего и большого размера такой подход становится вычислительно непрактичным и неэффективным. В этом случае необходимо использовать мощное средство Infini-gram.
Традиционные методы атрибуции в основном полагаются на анализ функций влияния модели, но перед большими моделями они в основном бездействуют. Причина проста: чем больше модель, тем сложнее внутренние вычисления, и затраты на анализ растут экспоненциально, что делает вычисления непрактичными и неэффективными. Это совершенно нереально в коммерческом применении.
Infini-gram полностью изменила подход: если модель слишком сложна, то просто ищем совпадения в исходных данных. Он строит индекс на основе суффиксного массива, используя динамически выбираемое самое длинное совпадающее суффикс вместо традиционного фиксированного окна n-gram. Проще говоря, когда модель выдает какую-либо последовательность, Infini-gram будет для каждого токена распознавать самый длинный точный матч в обучающих данных.
Таким образом, производственные данные действительно впечатляют: 1,4 триллиона токенов, запрос занимает всего 20 миллисекунд, а хранение каждого токена требует лишь 7 байт. Более того, не требуется анализировать внутреннюю структуру модели и проводить сложные вычисления, чтобы точно провести атрибуцию. Для тех AI-компаний, которые рассматривают модели как коммерческую тайну, это просто идеальное решение.
Следует знать, что существующие на рынке решения для атрибуции данных либо неэффективны, либо недостаточно точны, либо требуют доступа к внутренним моделям. Infini-gram, можно сказать, нашел баланс по этим трем измерениям,
Ранее аннотация данных была тяжелой работой с низкой и однократной прибылью. Теперь это стало активом с постоянным доходом, логика стимулов совершенно иная.
Когда большинство проектов AI+Crypto все еще занимаются арендой вычислительной мощности и обучением моделей — относительно зрелыми направлениями, OpenLedger выбрала задание данных, самый трудный из всех аспектов. Этот стек технологий может переопределить сторону предложения данных AI.
В конце концов, в эпоху, когда качество данных имеет решающее значение, тот, кто сможет решить проблему распределения ценности данных, сможет привлечь самые качественные ресурсы данных.
Выше.
В целом, комбинация OpenLedgerPoA + Infini-gram не только решает технические проблемы, но и, что более важно, предоставляет новой логике распределения ценностей для всей отрасли.
В условиях, когда гонка за вычислительной мощностью постепенно затихает, а конкуренция за качество данных становится все более ожесточенной, такие технологические маршруты определенно не будут уникальными. На этой арене будут представлены различные решения, конкурирующие параллельно — некоторые сосредоточатся на точности атрибуции, другие будут акцентировать внимание на эффективности затрат, а некоторые будут работать над удобством использования. Каждый из них исследует оптимальное распределение ценности данных.
В конечном итоге, кто сможет выйти на рынок, будет зависеть от того, смогут ли они действительно привлечь достаточное количество поставщиков данных и разработчиков.