Na era em que a qualidade dos dados é primordial, quem conseguir resolver o problema da distribuição do valor dos dados será capaz de atrair os recursos de dados mais valiosos.
Escrito por: Haotian
O "trabalho árduo" da rotulagem de dados está silenciosamente se transformando em um doce? O @OpenledgerHQ, liderado pela Polychain e levantando mais de US$ 11,2 milhões em financiamento, usa o mecanismo exclusivo de PoA + infini-gram para atingir o ponto problemático há muito negligenciado da "distribuição de valor de dados". Vamos popularizar a ciência do ponto de vista técnico:
Para ser sincero, o maior "pecado original" da atual indústria de IA é a injustiça na distribuição do valor dos dados. O PoA (Prova de Contribuição) da OpenLedger tem como objetivo estabelecer um "sistema de rastreamento de direitos autorais" para as contribuições de dados.
Especificamente: os contribuintes de dados carregam conteúdo para DataNets de áreas específicas, e cada ponto de dados é permanentemente registrado junto com os metadados do contribuinte e o hash do conteúdo.
Quando o modelo é treinado com esses conjuntos de dados, o processo de atribuição ocorre na fase de inferência, ou seja, no momento em que o modelo gera a saída. O PoA rastreia quais pontos de dados influenciaram essa saída analisando a faixa de correspondência ou a pontuação de impacto, e esses registros determinam a proporção de influência dos dados de cada contribuinte.
Quando o modelo gera custos através de inferência, o PoA assegura que os lucros sejam distribuídos de forma precisa com base no impacto de cada contribuinte - criando um mecanismo de recompensas transparente, justo e em cadeia.
Em outras palavras, o PoA resolve a contradição fundamental da economia de dados. A lógica anterior era simples e brutal - as empresas de IA obtinham gratuitamente enormes quantidades de dados e, em seguida, lucravam muito com a comercialização dos modelos, enquanto os contribuintes de dados não recebiam nada. Mas o PoA, por meio de meios tecnológicos, implementou a "privatização de dados", permitindo que cada ponto de dados gerasse um valor econômico claro.
Eu acho que, uma vez que este mecanismo de conversão de "modo de aproveitamento" para "distribuição de acordo com o trabalho" funcione, a lógica de incentivo à contribuição de dados mudará completamente.
Além disso, o PoA adotou uma estratégia em camadas para resolver o problema de atribuição de modelos de diferentes tamanhos: modelos pequenos com milhões de parâmetros podem estimar o grau de impacto de cada ponto de dados analisando a função de influência do modelo, um custo computacional que ainda é suportável, enquanto modelos de médio a grande porte tornam-se inviáveis e ineficientes com esse método. É nesse momento que devemos lançar mão da poderosa Infini-gram.
A questão é: o que é a tecnologia infini-gram? O problema que ela visa resolver soa bastante complexo: rastrear com precisão a origem dos dados de cada Token de saída em modelos de caixa-preta de médio a grande porte.
Os métodos tradicionais de atribuição dependem principalmente da análise das funções de impacto dos modelos, mas diante de grandes modelos, basicamente não funcionam. A razão é simples: quanto maior o modelo, mais complexos se tornam os cálculos internos, e o custo da análise cresce de forma exponencial, tornando-se inviável e ineficiente em termos de cálculo. Isso é completamente irrealista em aplicações comerciais.
Infini-gram mudou completamente a abordagem: se o modelo interno é muito complexo, então vamos procurar correspondências diretamente nos dados originais. Ele constrói um índice com base em arrays de sufixos, substituindo a janela fixa de n-gram pelo sufixo mais longo que é selecionado dinamicamente. Em termos simples, quando o modelo gera uma determinada sequência, o Infini-gram identifica a correspondência exata mais longa nos dados de treinamento para cada contexto de Token.
Desta forma, os dados de desempenho gerados são realmente impressionantes, com um conjunto de dados de 1,4 trilhões de Tokens, onde as consultas levam apenas 20 milissegundos e o armazenamento de cada Token ocupa apenas 7 bytes. O mais importante é que não é necessário analisar a estrutura interna do modelo, nem realizar cálculos complexos, para obter atribuições precisas. Para as empresas de IA que consideram o modelo um segredo comercial, esta é, sem dúvida, uma solução feita sob medida.
É importante saber que as soluções de atribuição de dados disponíveis no mercado são ou ineficientes, ou imprecisas, ou requerem acesso ao interior do modelo. O Infini-gram encontrou um ponto de equilíbrio em ambas as dimensões.
Além disso, sinto que o conceito de dataset na blockchain proposto pela OpenLedger, o dataNets, é especialmente inovador. Diferente das transações de dados tradicionais que são uma compra única, o DataNets permite que os contribuintes de dados desfrutem de uma participação nos lucros gerados pelo uso dos dados durante a inferência.
No passado, a anotação de dados era um trabalho árduo, com lucros escassos e pontuais. Agora tornou-se um ativo de rendimento contínuo, com uma lógica de incentivo completamente diferente.
Enquanto a maioria dos projetos de AI+Crypto ainda está focada em aluguel de poder computacional e treinamento de modelos, a OpenLedger escolheu a atribuição de dados, que é o osso mais duro. Este stack tecnológico pode redefinir o lado da oferta de dados de AI.
Afinal, na era em que a qualidade dos dados é rei, quem conseguir resolver o problema da distribuição do valor dos dados, poderá atrair os recursos de dados mais valiosos.
Acima.
De um modo geral, a combinação de OpenLedgerPoA + Infini-gram não apenas resolve problemas técnicos, mas, mais importante, oferece à indústria uma nova lógica de distribuição de valor.
À medida que a corrida armamentista de poder computacional diminui e a competição pela qualidade dos dados se intensifica, este tipo de rota tecnológica certamente não será uma raridade. Este campo verá uma situação de múltiplas soluções competindo em paralelo - algumas focadas na precisão da atribuição, outras enfatizando a eficiência de custos e outras ainda explorando a facilidade de uso. Cada uma está a explorar a solução ótima para a distribuição de valor dos dados.
No final, qual deles conseguirá destacar-se, tudo depende de conseguir realmente atrair um número suficiente de provedores de dados e desenvolvedores.
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
Como a OpenLedger, que arrecadou 10 milhões de dólares, está a redefinir a distribuição do valor dos dados?
Escrito por: Haotian
O "trabalho árduo" da rotulagem de dados está silenciosamente se transformando em um doce? O @OpenledgerHQ, liderado pela Polychain e levantando mais de US$ 11,2 milhões em financiamento, usa o mecanismo exclusivo de PoA + infini-gram para atingir o ponto problemático há muito negligenciado da "distribuição de valor de dados". Vamos popularizar a ciência do ponto de vista técnico:
Especificamente: os contribuintes de dados carregam conteúdo para DataNets de áreas específicas, e cada ponto de dados é permanentemente registrado junto com os metadados do contribuinte e o hash do conteúdo.
Quando o modelo é treinado com esses conjuntos de dados, o processo de atribuição ocorre na fase de inferência, ou seja, no momento em que o modelo gera a saída. O PoA rastreia quais pontos de dados influenciaram essa saída analisando a faixa de correspondência ou a pontuação de impacto, e esses registros determinam a proporção de influência dos dados de cada contribuinte.
Quando o modelo gera custos através de inferência, o PoA assegura que os lucros sejam distribuídos de forma precisa com base no impacto de cada contribuinte - criando um mecanismo de recompensas transparente, justo e em cadeia.
Em outras palavras, o PoA resolve a contradição fundamental da economia de dados. A lógica anterior era simples e brutal - as empresas de IA obtinham gratuitamente enormes quantidades de dados e, em seguida, lucravam muito com a comercialização dos modelos, enquanto os contribuintes de dados não recebiam nada. Mas o PoA, por meio de meios tecnológicos, implementou a "privatização de dados", permitindo que cada ponto de dados gerasse um valor econômico claro.
Eu acho que, uma vez que este mecanismo de conversão de "modo de aproveitamento" para "distribuição de acordo com o trabalho" funcione, a lógica de incentivo à contribuição de dados mudará completamente.
Além disso, o PoA adotou uma estratégia em camadas para resolver o problema de atribuição de modelos de diferentes tamanhos: modelos pequenos com milhões de parâmetros podem estimar o grau de impacto de cada ponto de dados analisando a função de influência do modelo, um custo computacional que ainda é suportável, enquanto modelos de médio a grande porte tornam-se inviáveis e ineficientes com esse método. É nesse momento que devemos lançar mão da poderosa Infini-gram.
Os métodos tradicionais de atribuição dependem principalmente da análise das funções de impacto dos modelos, mas diante de grandes modelos, basicamente não funcionam. A razão é simples: quanto maior o modelo, mais complexos se tornam os cálculos internos, e o custo da análise cresce de forma exponencial, tornando-se inviável e ineficiente em termos de cálculo. Isso é completamente irrealista em aplicações comerciais.
Infini-gram mudou completamente a abordagem: se o modelo interno é muito complexo, então vamos procurar correspondências diretamente nos dados originais. Ele constrói um índice com base em arrays de sufixos, substituindo a janela fixa de n-gram pelo sufixo mais longo que é selecionado dinamicamente. Em termos simples, quando o modelo gera uma determinada sequência, o Infini-gram identifica a correspondência exata mais longa nos dados de treinamento para cada contexto de Token.
Desta forma, os dados de desempenho gerados são realmente impressionantes, com um conjunto de dados de 1,4 trilhões de Tokens, onde as consultas levam apenas 20 milissegundos e o armazenamento de cada Token ocupa apenas 7 bytes. O mais importante é que não é necessário analisar a estrutura interna do modelo, nem realizar cálculos complexos, para obter atribuições precisas. Para as empresas de IA que consideram o modelo um segredo comercial, esta é, sem dúvida, uma solução feita sob medida.
É importante saber que as soluções de atribuição de dados disponíveis no mercado são ou ineficientes, ou imprecisas, ou requerem acesso ao interior do modelo. O Infini-gram encontrou um ponto de equilíbrio em ambas as dimensões.
No passado, a anotação de dados era um trabalho árduo, com lucros escassos e pontuais. Agora tornou-se um ativo de rendimento contínuo, com uma lógica de incentivo completamente diferente.
Enquanto a maioria dos projetos de AI+Crypto ainda está focada em aluguel de poder computacional e treinamento de modelos, a OpenLedger escolheu a atribuição de dados, que é o osso mais duro. Este stack tecnológico pode redefinir o lado da oferta de dados de AI.
Afinal, na era em que a qualidade dos dados é rei, quem conseguir resolver o problema da distribuição do valor dos dados, poderá atrair os recursos de dados mais valiosos.
Acima.
De um modo geral, a combinação de OpenLedgerPoA + Infini-gram não apenas resolve problemas técnicos, mas, mais importante, oferece à indústria uma nova lógica de distribuição de valor.
À medida que a corrida armamentista de poder computacional diminui e a competição pela qualidade dos dados se intensifica, este tipo de rota tecnológica certamente não será uma raridade. Este campo verá uma situação de múltiplas soluções competindo em paralelo - algumas focadas na precisão da atribuição, outras enfatizando a eficiência de custos e outras ainda explorando a facilidade de uso. Cada uma está a explorar a solução ótima para a distribuição de valor dos dados.
No final, qual deles conseguirá destacar-se, tudo depende de conseguir realmente atrair um número suficiente de provedores de dados e desenvolvedores.