Comment OpenLedger, ayant levé des millions de dollars, redéfinit-il la répartition de la valeur des données ?

À l'ère où la qualité des données est primordiale, celui qui peut résoudre le problème de la distribution de la valeur des données pourra attirer les ressources de données les plus précieuses.

Rédigé par : Haotian

La « tâche pénible » de l'annotation des données devient-elle discrètement un produit prisé ? Ce projet dirigé par Polychain, qui a levé plus de 11,2 millions de dollars, @OpenledgerHQ, avec son mécanisme unique PoA+infini-gram, vise précisément le point douloureux longtemps ignoré de la « répartition de la valeur des données ». Voyons cela d'un point de vue technique :

  1. Pour être honnête, le plus grand "péché originel" de l'industrie de l'IA actuelle est l'injustice dans la répartition de la valeur des données. Le PoA (preuve de contribution) d'OpenLedger vise à établir un "système de suivi des droits d'auteur" pour la contribution des données.

Plus précisément : les contributeurs de données téléchargent du contenu sur des DataNets spécifiques, chaque point de données étant enregistré de manière permanente avec les métadonnées du contributeur et le hachage du contenu.

Une fois que le modèle a été entraîné sur ces ensembles de données, le processus d'attribution se déroule lors de la phase d'inférence, c'est-à-dire au moment où le modèle génère des sorties. PoA suit quels points de données ont influencé cette sortie en analysant la portée d'appariement ou les scores d'impact, ces enregistrements déterminent la proportion d'influence des données de chaque contributeur.

Lorsque le modèle génère des coûts par inférence, le PoA garantit que les bénéfices sont répartis avec précision en fonction de l'impact de chaque contributeur - créant ainsi un mécanisme de récompense transparent, équitable et sur la chaîne.

En d'autres termes, le PoA résout la contradiction fondamentale de l'économie des données. La logique passée était simple et brutale : les entreprises d'IA obtenaient gratuitement d'énormes quantités de données, puis commercialisaient leurs modèles pour réaliser des bénéfices considérables, tandis que les contributeurs de données ne recevaient rien. Mais le PoA a réalisé, par des moyens techniques, la « privatisation des données », permettant à chaque point de données de générer une valeur économique claire.

Je pense que, une fois que ce mécanisme de conversion de « mode gratuit » en « répartition selon le travail » sera opérationnel, la logique d'incitation à la contribution des données sera complètement modifiée.

De plus, PoA adopte une stratégie hiérarchique pour résoudre le problème d'attribution des modèles de différentes tailles : les petits modèles avec des millions de paramètres peuvent estimer l'impact de chaque point de données en analysant la fonction d'influence du modèle, ce qui est encore supportable en termes de calcul, tandis que pour les modèles de taille moyenne à grande, cette méthode devient impraticable et inefficace. C'est à ce moment-là qu'il faut sortir l'arme secrète Infini-gram.

  1. La question se pose, qu'est-ce que la technologie infini-gram ? Le problème qu'elle cherche à résoudre semble très complexe : suivre avec précision l'origine des données de chaque Token de sortie dans un modèle boîte noire de taille moyenne à grande.

Les méthodes d'attribution traditionnelles reposent principalement sur l'analyse des fonctions d'influence des modèles, mais face aux grands modèles, elles deviennent pratiquement inutiles. La raison est simple : plus le modèle est grand, plus les calculs internes deviennent complexes, ce qui entraîne une augmentation exponentielle des coûts d'analyse, rendant les calculs peu pratiques et inefficaces. Cela est complètement irréaliste dans les applications commerciales.

Infini-gram a complètement changé d'approche : puisque le modèle interne est trop complexe, il suffit de trouver des correspondances dans les données brutes. Il construit un index basé sur un tableau de suffixes et remplace le n-gram traditionnel à fenêtre fixe par le suffixe de correspondance le plus long sélectionné dynamiquement. En d'autres termes, lorsque le modèle génère une certaine séquence, Infini-gram identifiera la correspondance exacte la plus longue dans les données d'entraînement pour chaque contexte de Token.

Les données de performance résultant de cela sont vraiment impressionnantes, avec un ensemble de données de 14 trillions de tokens, la requête ne prend que 20 millisecondes et chaque token ne nécessite que 7 octets de stockage. Plus important encore, il n'est pas nécessaire d'analyser la structure interne du modèle, ni de calculs complexes, pour obtenir une attribution précise. Pour les entreprises d'IA qui considèrent leurs modèles comme des secrets commerciaux, c'est tout simplement une solution sur mesure.

Il faut savoir que les solutions d'attribution de données sur le marché sont soit peu efficaces, soit manquent de précision, soit nécessitent d'accéder aux modèles internes. Infini-gram trouve un point d'équilibre sur ces trois dimensions,

  1. En outre, je trouve que le concept de jeu de données on-chain dataNets proposé par OpenLedger est particulièrement avant-gardiste. Contrairement à la vente unique traditionnelle de données, DataNets permet aux contributeurs de données de bénéficier durablement d'un partage des revenus lorsque leurs données sont utilisées dans des inférences.

La annotation de données dans le passé était un travail pénible, avec des bénéfices maigres et ponctuels. Maintenant, cela s'est transformé en un actif générant des revenus continus, avec une logique d'incitation complètement différente.

Alors que la plupart des projets AI+Crypto se concentrent encore sur des directions relativement matures comme la location de puissance de calcul et l'entraînement de modèles, OpenLedger a choisi de s'attaquer à la question de l'attribution des données, qui est l'un des défis les plus difficiles. Cette pile technologique pourrait redéfinir le côté de l'offre des données AI.

En fin de compte, dans une époque où la qualité des données est primordiale, celui qui peut résoudre le problème de la distribution de la valeur des données sera en mesure d'attirer les ressources de données les plus précieuses.

Ci-dessus.

Dans l'ensemble, la combinaison d'OpenLedgerPoA et d'Infini-gram résout non seulement des problèmes techniques, mais apporte surtout une nouvelle logique de répartition de la valeur à l'ensemble de l'industrie.

Alors que la course à l'armement en matière de puissance de calcul diminue progressivement et que la concurrence sur la qualité des données devient de plus en plus intense, ce type de voie technologique ne sera certainement pas unique. Ce secteur verra l'émergence de multiples solutions en concurrence parallèle - certaines se concentrant sur la précision d'attribution, d'autres mettant l'accent sur l'efficacité des coûts, et d'autres encore travaillant sur la facilité d'utilisation. Chacune explore la meilleure solution pour la répartition de la valeur des données.

Au final, quelle entreprise réussira vraiment dépendra de sa capacité à attirer suffisamment de fournisseurs de données et de développeurs.

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)