El desarrollo reciente de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de modelos grandes ha mejorado significativamente la eficiencia en diversas industrias; algunos estudios sugieren que GPT ha incrementado la eficiencia laboral en aproximadamente un 20% en Estados Unidos. Al mismo tiempo, la capacidad de generalización que traen los modelos grandes es considerada como un nuevo paradigma de diseño de software; el diseño de software en el pasado consistía en código preciso, mientras que el diseño de software actual integra marcos de modelos grandes más generalizados, permitiendo que estos programas tengan un mejor rendimiento y soporten entradas y salidas de modalidades más amplias. La tecnología de aprendizaje profundo ha, de hecho, traído la cuarta prosperidad a la industria de la inteligencia artificial, y esta tendencia también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, se analizarán en profundidad la cadena de suministro y demanda de la industria en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos, dispositivos de borde, así como su estado y tendencias de desarrollo. Posteriormente, exploraremos esencialmente la relación entre la industria de Crypto y la IA, y organizaremos el panorama de la cadena de suministro de IA relacionada con Crypto.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado muchas corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinarios.
La principal terminología utilizada en la tecnología moderna de inteligencia artificial es "aprendizaje automático". La idea de esta tecnología es permitir que las máquinas mejoren el rendimiento del sistema mediante la iteración repetida en tareas a partir de datos. Los pasos principales son enviar datos al algoritmo, usar esos datos para entrenar el modelo, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres grandes corrientes principales: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo, representado por redes neuronales, domina ( también conocido como aprendizaje profundo ). La principal razón es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas ( y los parámetros ) se vuelven lo suficientemente altos, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de haber pasado por múltiples datos, esa neurona alcanzará un estado óptimo ( parámetros ), lo que también se conoce como "hacer milagros con gran esfuerzo", y esta es también la razón del término "profundidad"—suficientes capas y neuronas.
Un ejemplo simple de entender es que se construye una función. Cuando ingresamos X=2, Y=3; cuando X=3, Y=5. Si queremos que esta función responda a todos los X, necesitamos seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que cumpla con esta condición: Y = 2X -1, pero si hay un dato donde X=2, Y=11, necesitaré reconstruir una función que se adapte a estos tres puntos de datos. Utilizando GPU para un ataque de fuerza bruta, se descubre que Y = X2 -3X +5 es bastante adecuado, pero no es necesario que coincida completamente con los datos, solo se necesita mantener el equilibrio y una salida aproximadamente similar. Aquí, X2, X, y X0 representan diferentes neuronas, y 1, -3, 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podemos ajustar todos los datos.
Y la tecnología de aprendizaje profundo basada en redes neuronales ha tenido múltiples iteraciones y evoluciones, como se muestra en la imagen anterior, desde las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN, GAN, hasta la evolución hacia modelos grandes modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que agrega un convertidor ( Transformer ), para codificar los datos de todos los modos ( como audio, video, imágenes, etc. ) en valores numéricos correspondientes para su representación. Luego, se ingresan a la red neuronal, de modo que la red neuronal puede ajustar cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de la propuesta de la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, la cual resolvió problemas de procesamiento del lenguaje natural y diálogo hombre-máquina. En ese mismo período, nacieron los sistemas expertos, como el sistema experto DENRAL, que fue completado bajo la supervisión de una universidad en la NASA de EE. UU. Este sistema posee un conocimiento químico muy sólido y genera respuestas similares a las de un experto en química a través de inferencias basadas en preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, un científico y filósofo estadounidense de origen israelí propuso las redes bayesianas, que también se conocen como redes de creencias. En el mismo período, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, Deep Blue, una compañía de tecnología, derrotó al campeón de ajedrez con un marcador de 3.5 a 2.5, y esta victoria se considera un hito en la inteligencia artificial, marcando un segundo apogeo en el desarrollo de la tecnología de IA.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo propusieron el concepto de aprendizaje profundo, un algoritmo basado en arquitecturas de redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y también fue la época dorada del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de una empresa de tecnología ganó a los humanos y se coronó campeón en el programa de preguntas y respuestas "Jeopardy" (.
En 2014, Goodfellow propuso la red generativa adversarial GAN), Generative Adversarial Network(, que aprende a generar fotos indistinguibles de las reales mediante el enfrentamiento entre dos redes neuronales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton et al. propusieron un algoritmo de aprendizaje profundo en la revista "Nature", y la introducción de este método de aprendizaje profundo provocó una gran repercusión tanto en el ámbito académico como en la industria.
En 2015, una empresa de inteligencia artificial fue fundada y varios inversores conocidos anunciaron una inversión conjunta de 1000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, compitió en una batalla de Go contra el campeón mundial y jugador profesional de noveno dan, ganando con un marcador total de 4 a 1.
En 2017, una compañía de tecnología robótica de Hong Kong, China, desarrolló un robot humanoide llamado Sofía, que se considera el primer robot en la historia en obtener la ciudadanía de primer nivel, con una rica expresión facial y capacidad de comprensión del lenguaje humano.
En 2017, una empresa de tecnología con un rico talento y reservas de tecnología en el campo de la inteligencia artificial publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, dando lugar a la aparición de modelos de lenguaje a gran escala.
En 2018, una empresa de inteligencia artificial lanzó el GPT)Generative Pre-trained Transformer( construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de la época.
En 2018, un equipo de una empresa de tecnología lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, una empresa de inteligencia artificial lanzó GPT-2, el modelo cuenta con 1.5 mil millones de parámetros.
En 2020, una empresa de inteligencia artificial desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo fue entrenado con 570 GB de texto y puede alcanzar un rendimiento de vanguardia en múltiples tareas de NLP), como responder preguntas, traducir y redactar artículos(.
En 2021, una empresa de inteligencia artificial lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, una empresa de inteligencia artificial lanzó GPT-4 omni.
![Nuevo conocimiento丨IA x Cripto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Cadena de la industria del aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Encabezados por GPT, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado una explosión en la demanda de datos y potencia de cálculo en el mercado. Por lo tanto, en esta parte del informe, nos enfocamos principalmente en explorar la cadena de suministro de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen sus sectores upstream y downstream, y cuál es el estado actual de la relación entre oferta y demanda y su desarrollo futuro?
Primero, necesitamos aclarar que durante el entrenamiento del modelo grande LLMs liderado por GPT basado en la tecnología Transformer ), se divide en tres pasos.
Antes del entrenamiento, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenization". Luego, estos valores se denominan Token. Según una regla empírica general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede ser considerado aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. A través de proporcionar suficientes pares de datos a la capa de entrada, similar al ejemplo dado en la primera parte del informe (X,Y), para encontrar los mejores parámetros de cada neurona en el modelo, en este momento se necesita una gran cantidad de datos, y este proceso también es el más costoso en términos de cálculo, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un lote más pequeño pero de datos de alta calidad para entrenar, este cambio permitirá que la salida del modelo tenga una mayor calidad, porque el preentrenamiento requiere una gran cantidad de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso es el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida, por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario de negocio es bastante vertical. Luego, se utilizará este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, de este modo se podrá usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ( Sin embargo, a veces también es necesaria la participación humana para juzgar la calidad de salida del modelo ).
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una demanda muy alta de la cantidad de datos, y la potencia de cálculo de GPU necesaria también es la mayor, mientras que el ajuste fino requiere datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensas para generar resultados de mayor calidad.
Durante el proceso de entrenamiento, cuántos más parámetros hay, mayor es el techo de su capacidad de generalización. Por ejemplo, en el caso que usamos de función, Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, cómo varían los parámetros, los datos que pueden ajustar son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la que los grandes modelos producen milagros, y también la razón por la que se les llama comúnmente grandes modelos; en esencia, se trata de una gran cantidad de neuronas y parámetros, así como de una gran cantidad de datos, y al mismo tiempo, se requiere una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres factores afectan conjuntamente la calidad de los resultados y la capacidad de generalización de los grandes modelos. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n( calculada en función de la cantidad de tokens), entonces podemos calcular la cantidad de cálculo necesaria a través de una regla empírica general, lo que nos permitirá estimar la potencia de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son un término general para la suma, resta, multiplicación y división de valores no enteros, como 2.5 + 3.557. El punto flotante indica que puede haber un punto decimal, mientras que FP16 representa una precisión que admite decimales, y FP32 es más común.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La fusión de la IA con Activos Cripto: desde el desarrollo hasta el análisis panorámico de la cadena de industria
IA x Cripto: De cero a la cima
Introducción
El desarrollo reciente de la industria de la inteligencia artificial ha sido visto por algunos como la cuarta revolución industrial. La aparición de modelos grandes ha mejorado significativamente la eficiencia en diversas industrias; algunos estudios sugieren que GPT ha incrementado la eficiencia laboral en aproximadamente un 20% en Estados Unidos. Al mismo tiempo, la capacidad de generalización que traen los modelos grandes es considerada como un nuevo paradigma de diseño de software; el diseño de software en el pasado consistía en código preciso, mientras que el diseño de software actual integra marcos de modelos grandes más generalizados, permitiendo que estos programas tengan un mejor rendimiento y soporten entradas y salidas de modalidades más amplias. La tecnología de aprendizaje profundo ha, de hecho, traído la cuarta prosperidad a la industria de la inteligencia artificial, y esta tendencia también se ha extendido a la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la invención de la tecnología de aprendizaje profundo en la industria. Luego, se analizarán en profundidad la cadena de suministro y demanda de la industria en el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos, dispositivos de borde, así como su estado y tendencias de desarrollo. Posteriormente, exploraremos esencialmente la relación entre la industria de Crypto y la IA, y organizaremos el panorama de la cadena de suministro de IA relacionada con Crypto.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el mundo académico y la industria han desarrollado muchas corrientes para lograr la inteligencia artificial en diferentes épocas y contextos disciplinarios.
La principal terminología utilizada en la tecnología moderna de inteligencia artificial es "aprendizaje automático". La idea de esta tecnología es permitir que las máquinas mejoren el rendimiento del sistema mediante la iteración repetida en tareas a partir de datos. Los pasos principales son enviar datos al algoritmo, usar esos datos para entrenar el modelo, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres grandes corrientes principales: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo, representado por redes neuronales, domina ( también conocido como aprendizaje profundo ). La principal razón es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas ( y los parámetros ) se vuelven lo suficientemente altos, hay suficientes oportunidades para ajustar tareas generales complejas. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas, y después de haber pasado por múltiples datos, esa neurona alcanzará un estado óptimo ( parámetros ), lo que también se conoce como "hacer milagros con gran esfuerzo", y esta es también la razón del término "profundidad"—suficientes capas y neuronas.
Un ejemplo simple de entender es que se construye una función. Cuando ingresamos X=2, Y=3; cuando X=3, Y=5. Si queremos que esta función responda a todos los X, necesitamos seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que cumpla con esta condición: Y = 2X -1, pero si hay un dato donde X=2, Y=11, necesitaré reconstruir una función que se adapte a estos tres puntos de datos. Utilizando GPU para un ataque de fuerza bruta, se descubre que Y = X2 -3X +5 es bastante adecuado, pero no es necesario que coincida completamente con los datos, solo se necesita mantener el equilibrio y una salida aproximadamente similar. Aquí, X2, X, y X0 representan diferentes neuronas, y 1, -3, 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para ajustar los nuevos datos. De esta manera, podemos ajustar todos los datos.
Y la tecnología de aprendizaje profundo basada en redes neuronales ha tenido múltiples iteraciones y evoluciones, como se muestra en la imagen anterior, desde las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN, GAN, hasta la evolución hacia modelos grandes modernos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que agrega un convertidor ( Transformer ), para codificar los datos de todos los modos ( como audio, video, imágenes, etc. ) en valores numéricos correspondientes para su representación. Luego, se ingresan a la red neuronal, de modo que la red neuronal puede ajustar cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de la propuesta de la tecnología de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, la cual resolvió problemas de procesamiento del lenguaje natural y diálogo hombre-máquina. En ese mismo período, nacieron los sistemas expertos, como el sistema experto DENRAL, que fue completado bajo la supervisión de una universidad en la NASA de EE. UU. Este sistema posee un conocimiento químico muy sólido y genera respuestas similares a las de un experto en química a través de inferencias basadas en preguntas. Este sistema experto en química puede considerarse como una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, un científico y filósofo estadounidense de origen israelí propuso las redes bayesianas, que también se conocen como redes de creencias. En el mismo período, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, Deep Blue, una compañía de tecnología, derrotó al campeón de ajedrez con un marcador de 3.5 a 2.5, y esta victoria se considera un hito en la inteligencia artificial, marcando un segundo apogeo en el desarrollo de la tecnología de IA.
La tercera ola de la tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo propusieron el concepto de aprendizaje profundo, un algoritmo basado en arquitecturas de redes neuronales artificiales para el aprendizaje de representaciones de datos. Posteriormente, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos algoritmos moldearon conjuntamente esta tercera ola tecnológica, y también fue la época dorada del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson de una empresa de tecnología ganó a los humanos y se coronó campeón en el programa de preguntas y respuestas "Jeopardy" (.
En 2014, Goodfellow propuso la red generativa adversarial GAN), Generative Adversarial Network(, que aprende a generar fotos indistinguibles de las reales mediante el enfrentamiento entre dos redes neuronales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton et al. propusieron un algoritmo de aprendizaje profundo en la revista "Nature", y la introducción de este método de aprendizaje profundo provocó una gran repercusión tanto en el ámbito académico como en la industria.
En 2015, una empresa de inteligencia artificial fue fundada y varios inversores conocidos anunciaron una inversión conjunta de 1000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, compitió en una batalla de Go contra el campeón mundial y jugador profesional de noveno dan, ganando con un marcador total de 4 a 1.
En 2017, una compañía de tecnología robótica de Hong Kong, China, desarrolló un robot humanoide llamado Sofía, que se considera el primer robot en la historia en obtener la ciudadanía de primer nivel, con una rica expresión facial y capacidad de comprensión del lenguaje humano.
En 2017, una empresa de tecnología con un rico talento y reservas de tecnología en el campo de la inteligencia artificial publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, dando lugar a la aparición de modelos de lenguaje a gran escala.
En 2018, una empresa de inteligencia artificial lanzó el GPT)Generative Pre-trained Transformer( construido sobre el algoritmo Transformer, que era uno de los modelos de lenguaje más grandes de la época.
En 2018, un equipo de una empresa de tecnología lanzó AlphaGo basado en aprendizaje profundo, capaz de predecir la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, una empresa de inteligencia artificial lanzó GPT-2, el modelo cuenta con 1.5 mil millones de parámetros.
En 2020, una empresa de inteligencia artificial desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo fue entrenado con 570 GB de texto y puede alcanzar un rendimiento de vanguardia en múltiples tareas de NLP), como responder preguntas, traducir y redactar artículos(.
En 2021, una empresa de inteligencia artificial lanzó GPT-4, un modelo que cuenta con 1.76 billones de parámetros, que es 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido ha llegado a cien millones de usuarios en la historia.
En 2024, una empresa de inteligencia artificial lanzó GPT-4 omni.
![Nuevo conocimiento丨IA x Cripto: De cero a la cima])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Cadena de la industria del aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Encabezados por GPT, los grandes modelos han generado una ola de entusiasmo por la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos observado una explosión en la demanda de datos y potencia de cálculo en el mercado. Por lo tanto, en esta parte del informe, nos enfocamos principalmente en explorar la cadena de suministro de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen sus sectores upstream y downstream, y cuál es el estado actual de la relación entre oferta y demanda y su desarrollo futuro?
Primero, necesitamos aclarar que durante el entrenamiento del modelo grande LLMs liderado por GPT basado en la tecnología Transformer ), se divide en tres pasos.
Antes del entrenamiento, dado que se basa en Transformer, el convertidor necesita transformar la entrada de texto en valores numéricos, este proceso se denomina "Tokenization". Luego, estos valores se denominan Token. Según una regla empírica general, una palabra o carácter en inglés puede considerarse aproximadamente como un Token, mientras que cada carácter chino puede ser considerado aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. A través de proporcionar suficientes pares de datos a la capa de entrada, similar al ejemplo dado en la primera parte del informe (X,Y), para encontrar los mejores parámetros de cada neurona en el modelo, en este momento se necesita una gran cantidad de datos, y este proceso también es el más costoso en términos de cálculo, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, el ajuste fino. El ajuste fino consiste en proporcionar un lote más pequeño pero de datos de alta calidad para entrenar, este cambio permitirá que la salida del modelo tenga una mayor calidad, porque el preentrenamiento requiere una gran cantidad de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de ajuste fino puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso es el aprendizaje por refuerzo. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El propósito de este modelo es muy simple: clasificar los resultados de salida, por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario de negocio es bastante vertical. Luego, se utilizará este modelo para determinar si la salida de nuestro gran modelo es de alta calidad, de este modo se podrá usar un modelo de recompensa para iterar automáticamente los parámetros del gran modelo. ( Sin embargo, a veces también es necesaria la participación humana para juzgar la calidad de salida del modelo ).
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una demanda muy alta de la cantidad de datos, y la potencia de cálculo de GPU necesaria también es la mayor, mientras que el ajuste fino requiere datos de mayor calidad para mejorar los parámetros. El aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensas para generar resultados de mayor calidad.
Durante el proceso de entrenamiento, cuántos más parámetros hay, mayor es el techo de su capacidad de generalización. Por ejemplo, en el caso que usamos de función, Y = aX + b, en realidad hay dos neuronas, X y X0. Por lo tanto, cómo varían los parámetros, los datos que pueden ajustar son extremadamente limitados, porque su esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la que los grandes modelos producen milagros, y también la razón por la que se les llama comúnmente grandes modelos; en esencia, se trata de una gran cantidad de neuronas y parámetros, así como de una gran cantidad de datos, y al mismo tiempo, se requiere una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los grandes modelos se determina principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la potencia de cálculo. Estos tres factores afectan conjuntamente la calidad de los resultados y la capacidad de generalización de los grandes modelos. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n( calculada en función de la cantidad de tokens), entonces podemos calcular la cantidad de cálculo necesaria a través de una regla empírica general, lo que nos permitirá estimar la potencia de cálculo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son un término general para la suma, resta, multiplicación y división de valores no enteros, como 2.5 + 3.557. El punto flotante indica que puede haber un punto decimal, mientras que FP16 representa una precisión que admite decimales, y FP32 es más común.