¿Cómo está OpenLedger, que ha financiado k dólares, remodelando la distribución del valor de los datos?

En la era en la que la calidad de los datos es primordial, quien pueda resolver el problema de la distribución del valor de los datos, podrá atraer los recursos de datos de mayor calidad.

Escrito por: Haotian

¿La "etapa dura y laboriosa" de la anotación de datos se está convirtiendo silenciosamente en un manjar? @OpenledgerHQ, respaldado por Polychain y que ha recaudado más de 11,200,000 dólares, apunta precisamente a "la distribución del valor de los datos", un punto doloroso que ha sido ignorado durante mucho tiempo, utilizando un mecanismo único de PoA+infini-gram. Vamos, expliquemos desde una perspectiva técnica:

  1. A decir verdad, el mayor "pecado original" de la actual industria de la IA es la injusticia en la distribución del valor de los datos. Lo que busca hacer OpenLedger con su PoA (Prueba de Aportación) es establecer un "sistema de seguimiento de derechos de autor" para las contribuciones de datos.

En concreto: los contribuyentes de datos subirán contenido a DataNets de dominios específicos, y cada punto de datos se registrará de forma permanente junto con los metadatos del contribuyente y el hash del contenido.

Una vez que el modelo ha sido entrenado con estos conjuntos de datos, el proceso de atribución se lleva a cabo durante la fase de inferencia, es decir, en el momento en que el modelo genera la salida. PoA rastrea qué puntos de datos afectaron esa salida al analizar el rango de coincidencia o la puntuación de influencia; estos registros determinan la proporción de influencia de los datos de cada contribuyente.

Cuando el modelo genera costos a través de la inferencia, PoA asegura que los beneficios se distribuyan con precisión según el impacto de cada contribuyente, estableciendo un mecanismo de recompensa transparente, justo y en cadena.

En otras palabras, PoA resuelve la contradicción fundamental de la economía de datos. La lógica pasada era simple y brutal: las empresas de IA obtenían grandes cantidades de datos de forma gratuita y luego monetizaban sus modelos, llenándose los bolsillos, mientras que los contribuyentes de datos no recibían nada. Pero PoA, a través de medios técnicos, ha logrado la "privatización de datos", permitiendo que cada punto de datos genere un valor económico claro.

Creo que, una vez que se establezca este mecanismo de transición de "modo de obtener gratis" a "distribución según el trabajo", la lógica de incentivos por la contribución de datos cambiará por completo.

Además, PoA utiliza una estrategia jerárquica para abordar el problema de atribución de modelos de diferentes escalas: los modelos pequeños con millones de parámetros pueden estimar el grado de influencia de cada punto de datos analizando la función de influencia del modelo, lo cual es todavía manejable en términos de cálculo, mientras que para modelos de parámetros medianos y grandes, este método se vuelve computacionalmente inviable y poco eficiente. En este momento, es necesario recurrir a la poderosa herramienta Infini-gram.

  1. La pregunta es, ¿qué es la tecnología infini-gram? El problema que intenta resolver suena bastante extraño: rastrear con precisión la fuente de datos de cada Token de salida en modelos de caja negra de parámetros medianos a grandes.

Los métodos de atribución tradicionales dependen principalmente del análisis de las funciones de impacto del modelo, pero se vuelven prácticamente ineficaces frente a los grandes modelos. La razón es sencilla: cuanto más grande es el modelo, más complejos son los cálculos internos, lo que hace que el costo de análisis crezca de manera exponencial, volviéndose inviable y poco eficiente en términos de cálculo. Esto es completamente poco realista en aplicaciones comerciales.

Infini-gram ha cambiado completamente de enfoque: dado que el modelo interno es demasiado complejo, se busca directamente una coincidencia en los datos originales. Se basa en un índice construido a partir de un arreglo de sufijos, utilizando el sufijo más largo de coincidencia dinámica en lugar del n-gram de ventana fija tradicional. Entendido de manera simple, cuando el modelo emite una secuencia, Infini-gram identificará la coincidencia exacta más larga en los datos de entrenamiento para el contexto de cada Token.

Los datos de rendimiento que se presentan son realmente impresionantes: un conjunto de datos de 1.4 billones de Tokens, con consultas que solo requieren 20 milisegundos y un almacenamiento de solo 7 bytes por Token. Lo más importante es que no se necesita analizar la estructura interna del modelo ni realizar cálculos complejos para lograr una atribución precisa. Para aquellas empresas de IA que consideran el modelo como un secreto comercial, esto es prácticamente una solución hecha a medida.

Hay que saber que las soluciones de atribución de datos en el mercado son o ineficientes, o no tienen suficiente precisión, o requieren acceder al interior del modelo. Infini-gram ha encontrado un punto de equilibrio en estas tres dimensiones.

  1. Además, siento que el concepto de conjuntos de datos en cadena de dataNets propuesto por OpenLedger es especialmente innovador. A diferencia de la compra y venta única del comercio de datos tradicional, DataNets permite a los contribuyentes de datos disfrutar de manera sostenible de la participación en los ingresos generados cuando se utiliza su datos en el proceso de inferencia.

En el pasado, la anotación de datos era un trabajo arduo, con ganancias mínimas y únicas. Ahora se ha convertido en un activo de ingresos continuos, con una lógica de incentivos completamente diferente.

Mientras la mayoría de los proyectos de AI+Crypto todavía se centran en el alquiler de potencia de cálculo y el entrenamiento de modelos, OpenLedger ha elegido la atribución de datos, que es el hueso más duro. Este conjunto de tecnologías podría redefinir el lado de la oferta de datos de AI.

Después de todo, en la era en que la calidad de los datos es lo más importante, quien pueda resolver el problema de la distribución del valor de los datos, atraerá los recursos de datos de la más alta calidad.

Eso es todo.

En general, la combinación de OpenLedgerPoA + Infini-gram no solo resuelve problemas técnicos, sino que lo más importante es que proporciona una nueva lógica de distribución de valor para toda la industria.

En un momento en que la carrera de potencia de cálculo se está enfriando gradualmente y la competencia por la calidad de los datos se vuelve cada vez más intensa, este tipo de enfoques tecnológicos definitivamente no serán únicos. En esta pista, habrá múltiples soluciones compitiendo en paralelo: algunas se centran en la precisión de atribución, otras destacan la eficiencia en costos y algunas más trabajan en la facilidad de uso. Cada una está explorando la solución óptima para la distribución del valor de los datos.

Al final, cuál de ellos podrá emerger, depende de si realmente puede atraer a suficientes proveedores de datos y desarrolladores.

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)