OpenLedger đã huy động hàng triệu USD như thế nào để tái tạo phân phối giá trị dữ liệu?

Trong thời đại dữ liệu chất lượng là vua, ai có thể giải quyết vấn đề phân bổ giá trị dữ liệu, người đó sẽ thu hút được nguồn dữ liệu chất lượng cao nhất.

Tác giả: Haotian

Làm công việc "khổ cực" như gán nhãn dữ liệu, đang âm thầm trở thành món hàng hot? Dự án @OpenledgerHQ được Polychain dẫn dắt đầu tư, đã huy động hơn 11,2 triệu USD, nhắm đến việc "phân bổ giá trị dữ liệu" - một điểm đau đã bị bỏ qua từ lâu, thông qua cơ chế độc đáo PoA+infini-gram. Hãy đến, cùng tìm hiểu từ góc độ công nghệ:

  1. Nói thật lòng, "tội lỗi" lớn nhất của ngành AI hiện nay chính là sự phân phối giá trị dữ liệu không công bằng. Điều mà OpenLedger's PoA (Bằng chứng đóng góp) muốn làm, chính là thiết lập một "hệ thống theo dõi bản quyền" cho những đóng góp dữ liệu.

Cụ thể: Các nhà cung cấp dữ liệu sẽ tải nội dung lên các DataNet trong lĩnh vực cụ thể, mỗi điểm dữ liệu sẽ được ghi lại vĩnh viễn cùng với siêu dữ liệu của nhà cung cấp và băm nội dung.

Khi mô hình được huấn luyện dựa trên các tập dữ liệu này, quá trình quy kết sẽ diễn ra trong giai đoạn suy diễn, tức là thời điểm mô hình tạo ra đầu ra. PoA theo dõi các điểm dữ liệu nào đã ảnh hưởng đến đầu ra bằng cách phân tích phạm vi khớp hoặc điểm ảnh hưởng, những bản ghi này xác định tỷ lệ ảnh hưởng của dữ liệu của mỗi người đóng góp.

Khi mô hình phát sinh chi phí thông qua suy luận, PoA đảm bảo rằng lợi nhuận được phân bổ chính xác dựa trên ảnh hưởng của từng người đóng góp - tạo ra một cơ chế thưởng minh bạch, công bằng và trên chuỗi.

Nói cách khác, PoA giải quyết mâu thuẫn cơ bản của kinh tế dữ liệu. Logic trong quá khứ rất đơn giản và thô bạo - các công ty AI miễn phí thu thập một lượng lớn dữ liệu, sau đó kiếm lợi nhuận khổng lồ từ việc thương mại hóa mô hình, trong khi những người đóng góp dữ liệu lại không nhận được gì. Nhưng PoA thông qua các phương tiện kỹ thuật đã thực hiện "cá nhân hóa dữ liệu", cho phép mỗi điểm dữ liệu tạo ra giá trị kinh tế rõ ràng.

Tôi nghĩ rằng, một khi cơ chế chuyển đổi từ "chế độ miễn phí" sang "phân phối theo công sức" hoạt động tốt, thì logic khuyến khích đóng góp dữ liệu sẽ hoàn toàn thay đổi.

Hơn nữa, PoA áp dụng chiến lược phân lớp để giải quyết vấn đề quy thuộc của các mô hình có quy mô khác nhau: các mô hình nhỏ với hàng triệu tham số có thể ước lượng mức độ ảnh hưởng của từng điểm dữ liệu thông qua việc phân tích hàm ảnh hưởng của mô hình, khối lượng tính toán vẫn có thể chấp nhận được, trong khi các mô hình tham số trung bình và lớn thì phương pháp này trở nên không khả thi và kém hiệu quả về mặt tính toán. Lúc này, phải sử dụng đến vũ khí mạnh mẽ Infini-gram.

2)Vấn đề đặt ra là, công nghệ infini-gram là gì? Vấn đề mà nó giải quyết nghe có vẻ rất phức tạp: trong các mô hình hộp đen có tham số trung bình đến lớn, theo dõi chính xác nguồn dữ liệu của từng Token đầu ra.

Các phương pháp quy nạp truyền thống chủ yếu dựa vào phân tích hàm ảnh hưởng của mô hình, nhưng trong bối cảnh mô hình lớn thì hầu như không còn khả năng. Nguyên nhân rất đơn giản: Mô hình càng lớn, tính toán bên trong càng phức tạp, chi phí phân tích tăng theo cấp số nhân, trở nên không khả thi và kém hiệu quả trong tính toán. Điều này hoàn toàn không thực tế trong ứng dụng thương mại.

Infini-gram hoàn toàn đổi mới tư duy: vì mô hình bên trong quá phức tạp, nên trực tiếp tìm kiếm sự khớp trong dữ liệu gốc. Nó xây dựng chỉ mục dựa trên mảng hậu tố, sử dụng các hậu tố khớp chính xác dài nhất được chọn động thay cho cửa sổ n-gram cố định truyền thống. Hiểu đơn giản, khi mô hình xuất ra một chuỗi nào đó, Infini-gram sẽ nhận diện khớp chính xác dài nhất trong dữ liệu huấn luyện cho mỗi Token trong ngữ cảnh.

Hiệu suất dữ liệu mang lại thực sự rất ấn tượng, tập dữ liệu 1,4 triệu tỷ Token, truy vấn chỉ mất 20 mili giây, lưu trữ mỗi Token chỉ 7 byte. Điều quan trọng hơn là không cần phân tích cấu trúc nội bộ của mô hình, không cần tính toán phức tạp, vẫn có thể quy nguyên nhân chính xác. Đối với những công ty AI coi mô hình là bí mật thương mại, đây thực sự là giải pháp được thiết kế riêng.

Cần biết rằng, các giải pháp gán nhãn dữ liệu trên thị trường đều hoặc là kém hiệu quả, hoặc là độ chính xác không đủ, hoặc là cần truy cập vào nội bộ mô hình. Infini-gram được coi là đã tìm thấy điểm cân bằng trên cả ba chiều.

3)Ngoài ra, tôi cảm thấy khái niệm tập dữ liệu trên chuỗi dataNets do OpenLedger đề xuất đặc biệt mới mẻ. Khác với giao dịch dữ liệu truyền thống chỉ là một lần mua bán, DataNets cho phép những người đóng góp dữ liệu được hưởng chia sẻ lợi nhuận từ việc sử dụng dữ liệu trong quá trình suy luận.

Trước đây, việc gán nhãn dữ liệu là một công việc khó khăn, lợi nhuận thấp và chỉ một lần. Bây giờ nó đã trở thành một tài sản có thu nhập liên tục, logic khuyến khích hoàn toàn khác.

Khi phần lớn các dự án AI+Crypto vẫn đang tập trung vào việc cho thuê sức mạnh tính toán, đào tạo mô hình và những hướng đi tương đối trưởng thành, OpenLedger đã chọn lĩnh vực phân tích dữ liệu, một lĩnh vực khó nhất. Bộ công nghệ này có thể sẽ định nghĩa lại đầu vào dữ liệu AI.

Cuối cùng, trong thời đại mà chất lượng dữ liệu là vua, ai có thể giải quyết vấn đề phân phối giá trị dữ liệu, người đó sẽ thu hút được nguồn tài nguyên dữ liệu chất lượng cao nhất.

Trên đây.

Tổng thể mà nói, sự kết hợp giữa OpenLedgerPoA và Infini-gram không chỉ giải quyết các vấn đề kỹ thuật mà còn quan trọng hơn là cung cấp một logic phân phối giá trị hoàn toàn mới cho toàn bộ ngành.

Trong bối cảnh cuộc đua sức mạnh tính toán dần hạ nhiệt và cuộc cạnh tranh chất lượng dữ liệu ngày càng gay gắt, loại công nghệ này chắc chắn sẽ không phải là độc nhất. Lĩnh vực này sẽ xuất hiện nhiều giải pháp cạnh tranh song song - một số tập trung vào độ chính xác của việc quy nguyên nhân, một số khác chú trọng vào hiệu suất chi phí, trong khi một số lại tìm cách cải thiện tính dễ sử dụng. Mỗi bên đều đang khám phá giải pháp tối ưu cho việc phân phối giá trị dữ liệu.

Cuối cùng, ai có thể thành công vẫn còn phải xem liệu có thể thực sự thu hút đủ nhiều nhà cung cấp dữ liệu và nhà phát triển hay không.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)