Di era di mana kualitas data adalah raja, siapa pun yang dapat menyelesaikan masalah distribusi nilai data, dialah yang dapat menarik sumber daya data terbaik.
Penulis: Haotian
Apakah penandaan data yang merupakan "pekerjaan keras" ini secara perlahan menjadi sesuatu yang sangat dicari? @OpenledgerHQ yang dipimpin oleh Polychain, telah mendapatkan pendanaan lebih dari 1,120 juta dolar dengan mekanisme unik PoA+infini-gram, yang menargetkan "distribusi nilai data" yang telah lama diabaikan. Mari kita jelaskan dari sudut pandang teknis:
Sejujurnya, "dosa asli" terbesar di industri AI saat ini adalah ketidakadilan dalam distribusi nilai data. Apa yang ingin dilakukan oleh PoA (Proof of Authority) OpenLedger adalah membangun sebuah "sistem pelacakan hak cipta" untuk kontribusi data.
Secara spesifik: Kontributor data akan mengunggah konten ke DataNets di bidang tertentu, setiap titik data akan direkam secara permanen bersama dengan metadata kontributor dan hash konten.
Setelah model dilatih berdasarkan dataset ini, proses atribusi akan dilakukan pada tahap inferensi, yaitu saat model menghasilkan output. PoA melacak data mana yang mempengaruhi output dengan menganalisis rentang kecocokan atau skor dampak, dan catatan ini menentukan proporsi pengaruh data dari setiap kontributor.
Ketika model menghasilkan biaya melalui inferensi, PoA memastikan bahwa keuntungan didistribusikan secara akurat berdasarkan dampak masing-masing kontributor—menciptakan mekanisme penghargaan yang transparan, adil, dan di blockchain.
Dengan kata lain, PoA menyelesaikan kontradiksi mendasar dalam ekonomi data. Logika di masa lalu sangat sederhana dan kasar—perusahaan AI mendapatkan data dalam jumlah besar secara gratis, lalu menghasilkan keuntungan besar dari model yang mereka kembangkan, sementara kontributor data tidak mendapatkan apa-apa. Namun, PoA melalui cara teknologi mewujudkan "privatisasi data", sehingga setiap titik data dapat menghasilkan nilai ekonomi yang jelas.
Saya pikir, mekanisme transisi dari "mode gratis" ke "pembagian berdasarkan kerja" ini begitu berjalan, logika insentif kontribusi data sepenuhnya berubah.
Selain itu, PoA mengadopsi strategi berlapis untuk mengatasi masalah atribusi model dengan skala yang berbeda: model kecil dengan beberapa juta parameter dapat memperkirakan tingkat pengaruh setiap titik data melalui analisis fungsi pengaruh model, dan beban komputasinya masih dapat ditanggung, sementara model parameter menengah hingga besar menjadi tidak praktis dan tidak efisien dengan metode ini. Pada saat ini, senjata pamungkas Infini-gram harus dikerahkan.
2)Masalahnya adalah, apa itu teknologi infini-gram? Masalah yang ingin diselesaikannya terdengar sangat aneh: dalam model black box dengan parameter menengah hingga besar, secara akurat melacak sumber data dari setiap Token output.
Metode atribusi tradisional terutama bergantung pada analisis fungsi dampak model, tetapi di hadapan model besar, pada dasarnya tidak dapat digunakan. Alasannya sederhana: semakin besar model, semakin kompleks perhitungan internal, biaya analisis meningkat secara eksponensial, menjadi tidak layak dan tidak efisien secara komputasi. Ini sama sekali tidak realistis dalam aplikasi bisnis.
Infini-gram telah mengganti pendekatannya sepenuhnya: karena model di dalamnya terlalu kompleks, maka langsung mencari kecocokan dalam data asli. Ini membangun indeks berdasarkan array sufiks, menggunakan sufiks kecocokan terpanjang yang dipilih secara dinamis sebagai pengganti jendela tetap n-gram tradisional. Secara sederhana, ketika model mengeluarkan suatu urutan, Infini-gram akan mengidentifikasi kecocokan tepat terpanjang dalam data pelatihan untuk setiap konteks Token.
Dengan demikian, data kinerja yang dihasilkan sangat mengesankan, dengan dataset Token sebesar 14 triliun, pencarian hanya memerlukan 20 milidetik, dan penyimpanan setiap Token hanya 7 byte. Yang lebih penting adalah tidak perlu menganalisis struktur internal model, dan tidak perlu perhitungan yang rumit, untuk dapat memberikan atribusi yang akurat. Bagi perusahaan AI yang menganggap model sebagai rahasia dagang, ini adalah solusi yang benar-benar disesuaikan.
Perlu diketahui bahwa solusi atribusi data di pasar ini baik tidak efisien, kurang akurat, atau memerlukan akses ke dalam model. Infini-gram dapat dikatakan telah menemukan titik keseimbangan dalam ketiga dimensi ini.
Selain itu, saya merasa konsep dataset on-chain dataNets yang diajukan oleh OpenLedger sangat trendi. Berbeda dengan transaksi data tradisional yang hanya sekali beli, DataNets memungkinkan kontributor data untuk terus menikmati pembagian keuntungan saat data digunakan dalam inferensi.
Dulu, penandaan data adalah pekerjaan yang sulit, dengan imbalan yang sedikit dan sekali saja. Sekarang telah berubah menjadi aset yang memberikan pendapatan berkelanjutan, dengan logika insentif yang sepenuhnya berbeda.
Ketika sebagian besar proyek AI+Crypto masih fokus pada penyewaan daya komputasi dan pelatihan model yang relatif matang, OpenLedger memilih untuk menggarap atribusi data yang merupakan tantangan tersulit. Tumpukan teknologi ini mungkin akan mendefinisikan ulang sisi pasokan data AI.
Bagaimanapun juga, di era di mana kualitas data adalah raja, siapa pun yang dapat menyelesaikan masalah distribusi nilai data, merekalah yang dapat menarik sumber daya data terbaik.
Di atas.
Secara keseluruhan, kombinasi OpenLedgerPoA + Infini-gram tidak hanya menyelesaikan tantangan teknis, tetapi yang lebih penting adalah memberikan logika distribusi nilai baru untuk seluruh industri.
Di tengah perlombaan kekuatan komputasi yang semakin mendingin dan persaingan kualitas data yang semakin ketat, jalur teknologi semacam ini pasti tidak akan menjadi satu-satunya. Jalur ini akan muncul dengan berbagai solusi yang bersaing secara paralel - ada yang fokus pada akurasi atribusi, ada yang mengedepankan efisiensi biaya, dan ada yang berusaha memudahkan penggunaan. Masing-masing sedang menjelajahi solusi optimal untuk distribusi nilai data.
Akhirnya, siapa yang bisa keluar, pada dasarnya masih tergantung pada apakah mereka benar-benar bisa menarik cukup banyak penyedia data dan pengembang.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Bagaimana OpenLedger yang mengumpulkan dana 10 juta dolar AS merombak distribusi nilai data?
Penulis: Haotian
Apakah penandaan data yang merupakan "pekerjaan keras" ini secara perlahan menjadi sesuatu yang sangat dicari? @OpenledgerHQ yang dipimpin oleh Polychain, telah mendapatkan pendanaan lebih dari 1,120 juta dolar dengan mekanisme unik PoA+infini-gram, yang menargetkan "distribusi nilai data" yang telah lama diabaikan. Mari kita jelaskan dari sudut pandang teknis:
Secara spesifik: Kontributor data akan mengunggah konten ke DataNets di bidang tertentu, setiap titik data akan direkam secara permanen bersama dengan metadata kontributor dan hash konten.
Setelah model dilatih berdasarkan dataset ini, proses atribusi akan dilakukan pada tahap inferensi, yaitu saat model menghasilkan output. PoA melacak data mana yang mempengaruhi output dengan menganalisis rentang kecocokan atau skor dampak, dan catatan ini menentukan proporsi pengaruh data dari setiap kontributor.
Ketika model menghasilkan biaya melalui inferensi, PoA memastikan bahwa keuntungan didistribusikan secara akurat berdasarkan dampak masing-masing kontributor—menciptakan mekanisme penghargaan yang transparan, adil, dan di blockchain.
Dengan kata lain, PoA menyelesaikan kontradiksi mendasar dalam ekonomi data. Logika di masa lalu sangat sederhana dan kasar—perusahaan AI mendapatkan data dalam jumlah besar secara gratis, lalu menghasilkan keuntungan besar dari model yang mereka kembangkan, sementara kontributor data tidak mendapatkan apa-apa. Namun, PoA melalui cara teknologi mewujudkan "privatisasi data", sehingga setiap titik data dapat menghasilkan nilai ekonomi yang jelas.
Saya pikir, mekanisme transisi dari "mode gratis" ke "pembagian berdasarkan kerja" ini begitu berjalan, logika insentif kontribusi data sepenuhnya berubah.
Selain itu, PoA mengadopsi strategi berlapis untuk mengatasi masalah atribusi model dengan skala yang berbeda: model kecil dengan beberapa juta parameter dapat memperkirakan tingkat pengaruh setiap titik data melalui analisis fungsi pengaruh model, dan beban komputasinya masih dapat ditanggung, sementara model parameter menengah hingga besar menjadi tidak praktis dan tidak efisien dengan metode ini. Pada saat ini, senjata pamungkas Infini-gram harus dikerahkan.
2)Masalahnya adalah, apa itu teknologi infini-gram? Masalah yang ingin diselesaikannya terdengar sangat aneh: dalam model black box dengan parameter menengah hingga besar, secara akurat melacak sumber data dari setiap Token output.
Metode atribusi tradisional terutama bergantung pada analisis fungsi dampak model, tetapi di hadapan model besar, pada dasarnya tidak dapat digunakan. Alasannya sederhana: semakin besar model, semakin kompleks perhitungan internal, biaya analisis meningkat secara eksponensial, menjadi tidak layak dan tidak efisien secara komputasi. Ini sama sekali tidak realistis dalam aplikasi bisnis.
Infini-gram telah mengganti pendekatannya sepenuhnya: karena model di dalamnya terlalu kompleks, maka langsung mencari kecocokan dalam data asli. Ini membangun indeks berdasarkan array sufiks, menggunakan sufiks kecocokan terpanjang yang dipilih secara dinamis sebagai pengganti jendela tetap n-gram tradisional. Secara sederhana, ketika model mengeluarkan suatu urutan, Infini-gram akan mengidentifikasi kecocokan tepat terpanjang dalam data pelatihan untuk setiap konteks Token.
Dengan demikian, data kinerja yang dihasilkan sangat mengesankan, dengan dataset Token sebesar 14 triliun, pencarian hanya memerlukan 20 milidetik, dan penyimpanan setiap Token hanya 7 byte. Yang lebih penting adalah tidak perlu menganalisis struktur internal model, dan tidak perlu perhitungan yang rumit, untuk dapat memberikan atribusi yang akurat. Bagi perusahaan AI yang menganggap model sebagai rahasia dagang, ini adalah solusi yang benar-benar disesuaikan.
Perlu diketahui bahwa solusi atribusi data di pasar ini baik tidak efisien, kurang akurat, atau memerlukan akses ke dalam model. Infini-gram dapat dikatakan telah menemukan titik keseimbangan dalam ketiga dimensi ini.
Dulu, penandaan data adalah pekerjaan yang sulit, dengan imbalan yang sedikit dan sekali saja. Sekarang telah berubah menjadi aset yang memberikan pendapatan berkelanjutan, dengan logika insentif yang sepenuhnya berbeda.
Ketika sebagian besar proyek AI+Crypto masih fokus pada penyewaan daya komputasi dan pelatihan model yang relatif matang, OpenLedger memilih untuk menggarap atribusi data yang merupakan tantangan tersulit. Tumpukan teknologi ini mungkin akan mendefinisikan ulang sisi pasokan data AI.
Bagaimanapun juga, di era di mana kualitas data adalah raja, siapa pun yang dapat menyelesaikan masalah distribusi nilai data, merekalah yang dapat menarik sumber daya data terbaik.
Di atas.
Secara keseluruhan, kombinasi OpenLedgerPoA + Infini-gram tidak hanya menyelesaikan tantangan teknis, tetapi yang lebih penting adalah memberikan logika distribusi nilai baru untuk seluruh industri.
Di tengah perlombaan kekuatan komputasi yang semakin mendingin dan persaingan kualitas data yang semakin ketat, jalur teknologi semacam ini pasti tidak akan menjadi satu-satunya. Jalur ini akan muncul dengan berbagai solusi yang bersaing secara paralel - ada yang fokus pada akurasi atribusi, ada yang mengedepankan efisiensi biaya, dan ada yang berusaha memudahkan penggunaan. Masing-masing sedang menjelajahi solusi optimal untuk distribusi nilai data.
Akhirnya, siapa yang bisa keluar, pada dasarnya masih tergantung pada apakah mereka benar-benar bisa menarik cukup banyak penyedia data dan pengembang.