融资千万美元的 OpenLedger 如何重塑数据价值分配？

Question

> 在数据质量为王的时代，谁能解决数据价值分配问题，谁就能吸引到最优质的数据资源。  **撰文：Haotian**  数据标注这门「苦活累活」，正在悄悄变成香饽饽？这个由 Polychain 领投，获得超过 1,120 万美元融资的 @OpenledgerHQ，用 PoA+infini-gram 的独特机制，瞄准的正是「数据价值分配」这个被长期忽视的痛点。来，从技术视角科普下：  1）说实话，当前 AI 行业最大的「原罪」就是数据价值分配的不公。OpenLedger 的 PoA（贡献证明）要做的，就是给数据贡献建立一套「版权追踪系统」。  具体而言：数据贡献者将内容上传到特定领域的 DataNets，每个数据点都会与贡献者元数据和内容哈希一起被永久记录。  当模型基于这些数据集训练后，归因过程会在推理阶段进行也就是模型生成输出的时刻。PoA 通过分析匹配范围或影响分数来追踪哪些数据点影响了该输出，这些记录决定了每个贡献者数据的比例影响。  当模型通过推理产生费用时，PoA 确保利润根据每个贡献者的影响准确分配——创建了一个透明、公平且链上的奖励机制。  换句话说，PoA 解决的是数据经济学的根本矛盾。过去的逻辑很简单粗暴——AI 公司免费获取海量数据，然后靠模型商业化赚得盆满钵满，数据贡献者却什么都拿不到。但 PoA 通过技术手段实现了「数据私有化」，让每个数据点都能产生明确的经济价值。  我觉得，这种从「白嫖模式」到「按劳分配」的转换机制一旦跑通，数据贡献的激励逻辑就完全变了。  而且，PoA 采用了分层策略来解决不同规模模型的归因问题：几百万参数的小模型，可以通过分析模型影响函数来估算每个数据点的影响程度，计算量还能勉强承受，而中大型参数模型用这种方法在计算上变得不可行且低效。这时候就必须祭出 Infini-gram 这个大杀器了。  2）问题来了，何为 infini-gram 技术？它要解决的问题听起来就很变态：在中大型参数的黑盒模型中，精确追踪每个输出 Token 的数据来源。  传统归因方法主要靠分析模型影响函数，但在大模型面前基本歇菜。原因很简单：模型越大，内部计算越复杂，分析成本就指数级增长，在计算上变得不可行且低效。这在商业应用中完全不现实。  Infini-gram 完全换了个思路：既然模型内部太复杂，那就直接在原始数据中找匹配。它基于后缀数组构建索引，用动态选择的最长匹配后缀替代传统的固定窗口 n-gram。简单理解，就是当模型输出某个序列时，Infini-gram 会为每个 Token 上下文识别训练数据中最长的精确匹配。  这样一来带来的性能数据着实很惊艳，1.4 万亿 Token 数据集，查询只需 20 毫秒，存储每 Token 仅 7 字节。更关键的是无需分析模型内部结构，无需复杂计算，就能精确归因。对那些视模型为商业机密的 AI 公司来说，这简直是量身定制的解决方案。  要知道，市面上的数据归因方案要么效率低下，要么精度不够，要么需要访问模型内部。Infini-gram 算是在这三个维度都找到了平衡点，  3）除此之外，我感觉 OpenLedger 提出的 dataNets 链上数据集概念特别新潮。不同于传统数据交易的一锤子买卖，DataNets 让数据贡献者可持续享有数据被使用时在推理中的收益分成。  过去数据标注是苦差事，收益微薄且一次性。现在变成了持续收益的资产，激励逻辑完全不同。  当大部分 AI+Crypto 项目还在做算力租赁、模型训练这些相对成熟的方向时，OpenLedger 选择了数据归因这块最硬的骨头。这套技术栈可能会重新定义 AI 数据的供给端。  毕竟在数据质量为王的时代，谁能解决数据价值分配问题，谁就能吸引到最优质的数据资源。  以上。  总的来说，OpenLedgerPoA + Infini-gram 的组合不仅解决了技术难题，更重要的是为整个行业提供了全新的价值分配逻辑。  在算力军备赛逐渐降温、数据质量竞争愈发激烈的当下，这类技术路线肯定不会是孤品。这个赛道会出现多种方案并行竞争的局面——有的专注归因精度，有的主打成本效率，有的则在易用性上做文章。各自都在探索数据价值分配的最优解。  最终哪家才能跑出来，说到底还是要看能不能真正吸引到足够多的数据提供者和开发者。