Finansmanının 10 milyon dolar olduğu OpenLedger, veri değer dağılımını nasıl yeniden şekillendiriyor?

Veri kalitesinin kral olduğu çağda, veri değeri dağılımı sorununu çözebilen kişi, en kaliteli veri kaynaklarını çekebilecektir.

Yazan: Haotian

Veri etiketleme bu "zor ve yorucu iş", sessizce popülerleşiyor mu? Polychain'in öncülük ettiği ve 1.120.000 dolardan fazla fon elde eden @OpenledgerHQ, PoA+infini-gram'ın benzersiz mekanizması ile uzun süredir göz ardı edilen "veri değer dağılımı" sorununu hedefliyor. Haydi, teknik bir perspektiften açıklayalım:

  1. Dürüst olmak gerekirse, mevcut AI endüstrisinin en büyük "ilk günahı" verilerin değer dağılımındaki adaletsizliktir. OpenLedger'in PoA (Katkı Kanıtı), veri katkılarına bir "telif hakkı izleme sistemi" kurmayı hedefliyor.

Özellikle: Veri katkıcıları, içerikleri belirli alanlardaki DataNet'lere yükler ve her veri noktası, katkıcıya ait meta veriler ve içerik hash'i ile birlikte kalıcı olarak kaydedilir.

Model bu veri setleri üzerinde eğitildikten sonra, atıf süreci çıkarım aşamasında, yani modelin çıktı ürettiği anda gerçekleşir. PoA, hangi veri noktalarının bu çıktıyı etkilediğini izlemek için eşleşme aralığını veya etki puanını analiz ederek bu kayıtlar her bir katkıcının veri oranının etkisini belirler.

Model maliyetler ürettiğinde, PoA her katkıda bulunan kişinin etkisine göre karın doğru bir şekilde dağıtılmasını sağlar - şeffaf, adil ve zincir üzerinde bir ödül mekanizması oluşturur.

Başka bir deyişle, PoA, veri ekonomisinin temel çelişkisini çözmektedir. Geçmişteki mantık oldukça basit ve sertti - AI şirketleri, büyük miktarda veriyi ücretsiz olarak alıyor ve ardından modellerini ticari hale getirerek büyük kazançlar elde ediyordu, veri katkıcıları ise hiçbir şey kazanamıyordu. Ancak PoA, teknik yöntemler aracılığıyla "veri özel mülkiyeti" sağladı ve her bir veri noktasının belirli bir ekonomik değer üretmesini sağladı.

Bence, "bedava alma modu" ile "emek ile dağıtım" arasındaki bu dönüşüm mekanizması bir kez çalışmaya başladığında, veri katkısının teşvik mantığı tamamen değişecek.

Ayrıca, PoA, farklı ölçeklerdeki modellerin atıf sorununu çözmek için katmanlı bir strateji benimsiyor: milyonlarca parametreye sahip küçük modeller, model etki fonksiyonunu analiz ederek her bir veri noktasının etki derecesini tahmin edebilir, hesaplama yükü de zar zor karşılanabilirken, orta ve büyük ölçekli parametre modellerinde bu yöntem hesaplama açısından imkansız ve verimsiz hale geliyor. Bu durumda, Infini-gram adlı büyük silah devreye girmelidir.

  1. Sorun şu ki, infini-gram teknolojisi nedir? Çözmesi gereken sorun oldukça karmaşık görünüyor: Orta ve büyük ölçekli parametreli kara kutu modellerinde, her bir çıktı Token'ının veri kaynağını tam olarak izlemek.

Geleneksel atıf yöntemleri esasen modelin etki fonksiyonunu analiz etmeye dayanır, ancak büyük modeller karşısında temel olarak başarısızdır. Sebebi çok basit: Model ne kadar büyükse, iç hesaplamalar o kadar karmaşık hale gelir, analiz maliyeti de üstel olarak artar, bu da hesaplama açısından uygulanamaz ve verimsiz hale gelir. Bu, ticari uygulamalarda tamamen gerçekçi değildir.

Infini-gram tamamen yeni bir yaklaşım benimsiyor: Model iç yapısı çok karmaşık olduğuna göre, doğrudan ham verilerde eşleşme arayalım. Kendi kendine seçilen en uzun eşleşen son ek ile geleneksel sabit pencere n-gram yerine, bir son ek dizisi kullanarak indeks inşa ediyor. Basit bir şekilde ifade etmek gerekirse, model belirli bir diziyi çıkardığında, Infini-gram her Token için eğitim verilerinde en uzun kesin eşleşmeyi tanımlar.

Bu şekilde elde edilen performans verileri gerçekten etkileyici, 1.4 trilyon Token veri seti, sorgulama sadece 20 milisaniye sürüyor, her Token için depolama sadece 7 bayt. Daha da kritik olan, modelin iç yapısını analiz etmeye gerek kalmadan, karmaşık hesaplamalar yapmadan tam olarak neden-sonuç ilişkisi kurabilmek. Modeli ticari bir sır olarak gören AI şirketleri için bu, tam anlamıyla özel bir çözüm.

Bilinmelidir ki, piyasadaki veri atıf çözümleri ya verimsizdir, ya yeterince doğru değildir ya da modelin içini erişim gerektirir. Infini-gram bu üç boyutta bir denge noktası bulmayı başarmıştır,

3)Bunun yanı sıra, OpenLedger'ın önerdiği dataNets zincir üzerindeki veri seti kavramının oldukça yenilikçi olduğunu düşünüyorum. Geleneksel veri ticaretinin tek seferlik satışından farklı olarak, DataNets veri katkıcılarının verilerin kullanımında elde edilen gelir paylarından sürekli olarak yararlanmalarını sağlıyor.

Geçmişte veri etiketleme zor bir işti, getirisi az ve tek seferlikti. Şimdi ise sürekli gelir sağlayan bir varlık haline geldi, teşvik mantığı tamamen farklı.

Çoğu AI+Kripto projesi hâlâ hesap gücü kiralama, model eğitimi gibi nispeten olgun alanlarda çalışırken, OpenLedger en zorlu konulardan biri olan veri atıfını seçti. Bu teknoloji yığını, AI verilerinin arz tarafını yeniden tanımlayabilir.

Sonuçta, veri kalitesinin kral olduğu bir çağda, veri değerinin dağıtım sorununu çözebilen, en kaliteli veri kaynaklarını çekebilir.

Yukarıdaki.

Genel olarak, OpenLedgerPoA + Infini-gram kombinasyonu, yalnızca teknik zorlukları çözmekle kalmayıp, aynı zamanda tüm sektöre yeni bir değer dağıtım mantığı sunmaktadır.

Güç hesaplama yarışının yavaş yavaş soğuduğu ve veri kalitesi rekabetinin giderek daha da yoğunlaştığı bu dönemde, bu tür teknolojik yaklaşımlar kesinlikle tekil olmayacaktır. Bu alanda çeşitli çözümlerin aynı anda rekabet ettiği bir durum ortaya çıkacaktır - bazıları atıf doğruluğuna odaklanırken, bazıları maliyet verimliliğini öne çıkaracak, bazıları ise kullanılabilirlik üzerinde duracaktır. Her biri veri değerinin dağıtımının en iyi çözümünü keşfetmeye çalışıyor.

Sonunda hangi şirket çıkacak, nihayetinde yeterince veri sağlayıcı ve geliştirici çekip çekemeyeceklerine bağlı.

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)