融资千万美元的 OpenLedger 如何重塑数据价值分配?

在数据质量为王的时代,谁能解决数据价值分配问题,谁就能吸引到最优质的数据资源。

撰文:Haotian

数据标注这门「苦活累活」,正在悄悄变成香饽饽?这个由 Polychain 领投,获得超过 1,120 万美元融资的 @OpenledgerHQ,用 PoA+infini-gram 的独特机制,瞄准的正是「数据价值分配」这个被长期忽视的痛点。来,从技术视角科普下:

1)说实话,当前 AI 行业最大的「原罪」就是数据价值分配的不公。OpenLedger 的 PoA(贡献证明)要做的,就是给数据贡献建立一套「版权追踪系统」。

具体而言:数据贡献者将内容上传到特定领域的 DataNets,每个数据点都会与贡献者元数据和内容哈希一起被永久记录。

当模型基于这些数据集训练后,归因过程会在推理阶段进行也就是模型生成输出的时刻。PoA 通过分析匹配范围或影响分数来追踪哪些数据点影响了该输出,这些记录决定了每个贡献者数据的比例影响。

当模型通过推理产生费用时,PoA 确保利润根据每个贡献者的影响准确分配——创建了一个透明、公平且链上的奖励机制。

换句话说,PoA 解决的是数据经济学的根本矛盾。过去的逻辑很简单粗暴——AI 公司免费获取海量数据,然后靠模型商业化赚得盆满钵满,数据贡献者却什么都拿不到。但 PoA 通过技术手段实现了「数据私有化」,让每个数据点都能产生明确的经济价值。

我觉得,这种从「白嫖模式」到「按劳分配」的转换机制一旦跑通,数据贡献的激励逻辑就完全变了。

而且,PoA 采用了分层策略来解决不同规模模型的归因问题:几百万参数的小模型,可以通过分析模型影响函数来估算每个数据点的影响程度,计算量还能勉强承受,而中大型参数模型用这种方法在计算上变得不可行且低效。这时候就必须祭出 Infini-gram 这个大杀器了。

2)问题来了,何为 infini-gram 技术?它要解决的问题听起来就很变态:在中大型参数的黑盒模型中,精确追踪每个输出 Token 的数据来源。

传统归因方法主要靠分析模型影响函数,但在大模型面前基本歇菜。原因很简单:模型越大,内部计算越复杂,分析成本就指数级增长,在计算上变得不可行且低效。这在商业应用中完全不现实。

Infini-gram 完全换了个思路:既然模型内部太复杂,那就直接在原始数据中找匹配。它基于后缀数组构建索引,用动态选择的最长匹配后缀替代传统的固定窗口 n-gram。简单理解,就是当模型输出某个序列时,Infini-gram 会为每个 Token 上下文识别训练数据中最长的精确匹配。

这样一来带来的性能数据着实很惊艳,1.4 万亿 Token 数据集,查询只需 20 毫秒,存储每 Token 仅 7 字节。更关键的是无需分析模型内部结构,无需复杂计算,就能精确归因。对那些视模型为商业机密的 AI 公司来说,这简直是量身定制的解决方案。

要知道,市面上的数据归因方案要么效率低下,要么精度不够,要么需要访问模型内部。Infini-gram 算是在这三个维度都找到了平衡点,

3)除此之外,我感觉 OpenLedger 提出的 dataNets 链上数据集概念特别新潮。不同于传统数据交易的一锤子买卖,DataNets 让数据贡献者可持续享有数据被使用时在推理中的收益分成。

过去数据标注是苦差事,收益微薄且一次性。现在变成了持续收益的资产,激励逻辑完全不同。

当大部分 AI+Crypto 项目还在做算力租赁、模型训练这些相对成熟的方向时,OpenLedger 选择了数据归因这块最硬的骨头。这套技术栈可能会重新定义 AI 数据的供给端。

毕竟在数据质量为王的时代,谁能解决数据价值分配问题,谁就能吸引到最优质的数据资源。

以上。

总的来说,OpenLedgerPoA + Infini-gram 的组合不仅解决了技术难题,更重要的是为整个行业提供了全新的价值分配逻辑。

在算力军备赛逐渐降温、数据质量竞争愈发激烈的当下,这类技术路线肯定不会是孤品。这个赛道会出现多种方案并行竞争的局面——有的专注归因精度,有的主打成本效率,有的则在易用性上做文章。各自都在探索数据价值分配的最优解。

最终哪家才能跑出来,说到底还是要看能不能真正吸引到足够多的数据提供者和开发者。

本页面内容仅供参考,非招揽或要约,也不提供投资、税务或法律咨询。详见声明了解更多风险披露。
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)