L'intégration de l'IA et des cryptoactifs : du parcours de développement à l'analyse panoramique de la chaîne industrielle.

IA x Crypto : De zéro au sommet

Introduction

Le développement récent de l'industrie de l'intelligence artificielle est considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, certaines études estiment que le GPT a augmenté l'efficacité au travail aux États-Unis d'environ 20 %. En même temps, la capacité de généralisation apportée par les grands modèles est perçue comme un nouveau paradigme de conception logicielle. Auparavant, la conception logicielle consistait en un code précis, tandis qu'aujourd'hui, la conception logicielle intègre des cadres de grands modèles plus généralisés dans le logiciel, permettant à ces logiciels d'avoir de meilleures performances et de prendre en charge une gamme plus large d'entrées et de sorties. La technologie d'apprentissage profond a effectivement apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance s'est également étendue au secteur des cryptomonnaies.

Ce rapport examinera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact de l'invention de la technologie d'apprentissage profond sur l'industrie. Ensuite, nous analyserons en profondeur la chaîne d'approvisionnement en apprentissage profond, y compris les GPU, l'informatique en nuage, les sources de données, les appareils en périphérie, ainsi que leur état actuel et leurs tendances. Par la suite, nous explorerons essentiellement la relation entre l'industrie de la Crypto et celle de l'IA, en faisant un inventaire de la structure de la chaîne d'approvisionnement de l'IA liée à la Crypto.

Nouvelle vulgarisation丨IA x Crypto : De zéro au sommet

Histoire du développement de l'industrie de l'IA

L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le milieu académique et l'industrie ont développé de nombreuses écoles de pensée pour réaliser l'intelligence artificielle, dans différents contextes disciplinaires à différentes époques.

Les principales techniques utilisées par l'intelligence artificielle moderne sont celles du "machine learning". L'idée de cette technologie est de permettre aux machines d'améliorer les performances du système en itérant sur les tâches à l'aide de données. Les principales étapes consistent à envoyer des données à l'algorithme, à utiliser ces données pour entraîner un modèle, à tester et déployer le modèle, puis à utiliser le modèle pour réaliser des tâches de prédiction automatisée.

Actuellement, l'apprentissage automatique se divise en trois grands courants : le connexionnisme, le symbolisme et le béhaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.

Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en plein essor ( également appelé apprentissage profond ), principalement parce que cette architecture a une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones ( paramètres ) deviennent suffisamment élevés, il y a suffisamment d'opportunités pour ajuster des tâches générales complexes. Grâce à l'entrée des données, il est possible d'ajuster en continu les paramètres des neurones, de sorte qu'après avoir traversé de nombreuses données, ce neurone atteindra un état optimal ( paramètres ), c'est ce que nous appelons un grand effort produisant des miracles, et c'est aussi l'origine du mot "profond" - un nombre suffisant de couches et de neurones.

Prenons un exemple, on peut simplement comprendre qu'une fonction a été construite. Lorsque nous entrons X=2, Y=3 ; et X=3, Y=5. Si nous voulons que cette fonction réponde à tous les X, il est nécessaire d'ajouter continuellement le degré de cette fonction et ses paramètres. Par exemple, à ce moment, je peux construire une fonction qui satisfait cette condition sous la forme Y = 2X -1. Cependant, s'il y a des données telles que X=2, Y=11, il est nécessaire de reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une brute force, nous découvrons que Y = X2 -3X +5 est assez approprié, mais il n'est pas nécessaire que cela coïncide complètement avec les données, il suffit de respecter l'équilibre et d'avoir une sortie globalement similaire. Dans cela, X2, X, et X0 représentent différents neurones, tandis que 1, -3, 5 sont leurs paramètres.

À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et ajuster les paramètres pour adapter les nouvelles données. Cela nous permettra d'ajuster toutes les données.

La technologie de l'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, comme les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, jusqu'à l'évolution vers les grands modèles modernes tels que GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant simplement un convertisseur ( Transformer ), utilisé pour encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ensuite, ces données sont entrées dans le réseau de neurones, permettant ainsi au réseau de neurones d'ajuster tout type de données, réalisant ainsi le multimodal.

Nouveau Guide丨AI x Crypto : De zéro au sommet

Le développement de l'IA a connu trois vagues technologiques. La première vague remonte aux années 1960, une décennie après la proposition de la technologie AI. Cette vague a été provoquée par le développement de la technologie du symbolisme, qui a résolu les problèmes de traitement du langage naturel et de dialogue homme-machine. Pendant cette période, les systèmes experts ont vu le jour, dont le système expert DENRAL, réalisé sous l'impulsion d'une université pour la NASA. Ce système possède une très forte connaissance en chimie et déduit des réponses semblables à celles d'un expert en chimie à partir de questions. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.

Après les systèmes experts, un scientifique et philosophe américain d'origine israélienne a proposé les réseaux bayésiens dans les années 1990, qui sont également connus sous le nom de réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.

En 1997, le "Deep Blue" d'une entreprise technologique a battu le champion d'échecs avec un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un second sommet dans le développement de la technologie AI.

La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond ont introduit le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de la représentation des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, des RNN, GAN aux Transformers et à la Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est également l'apogée du connexionnisme.

De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :

  • En 2011, Watson d'une entreprise technologique a remporté le titre lors de l'émission de quiz "Dangerous Edge" (Jeopardy) en battant des humains.

  • En 2014, Goodfellow a proposé le GAN( Réseau de Génération Antagoniste, Generative Adversarial Network), qui apprend à générer des photos réalistes en faisant s'affronter deux réseaux de neurones. En même temps, Goodfellow a également écrit un livre intitulé « Deep Learning », connu sous le nom de livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.

  • En 2015, Hinton et al. ont proposé des algorithmes d'apprentissage profond dans la revue "Nature", et cette méthode d'apprentissage profond a immédiatement suscité une énorme réaction dans le milieu académique ainsi que dans l'industrie.

  • En 2015, une entreprise d'intelligence artificielle a été fondée, plusieurs investisseurs renommés ont annoncé un investissement commun de 1 milliard de dollars.

  • En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté la guerre des hommes contre les machines au jeu de Go contre le champion du monde et joueur professionnel de 9e dan avec un score total de 4 à 1.

  • En 2017, une entreprise de technologie robotique de Hong Kong a développé un robot humanoïde nommé Sophia, qui est considéré comme le premier robot de l'histoire à avoir obtenu le statut de citoyen de premier ordre, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.

  • En 2017, une entreprise technologique disposant d'un riche réservoir de talents et de technologies dans le domaine de l'intelligence artificielle a publié un article intitulé « Attention is all you need » proposant l'algorithme Transformer, marquant le début de l'émergence de grands modèles de langage.

  • En 2018, une entreprise d'intelligence artificielle a lancé le GPT(Generative Pre-trained Transformer) construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.

  • En 2018, une équipe d'une société technologique a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un grand signe de progrès dans le domaine de l'intelligence artificielle.

  • En 2019, une entreprise d'intelligence artificielle a lancé GPT-2, un modèle doté de 1,5 milliard de paramètres.

  • En 2020, une entreprise d'intelligence artificielle a développé GPT-3, avec 175 milliards de paramètres, 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe dans plusieurs tâches de traitement du langage naturel, telles que la réponse aux questions, la traduction et la rédaction d'articles.

  • En 2021, une entreprise d'intelligence artificielle a lancé GPT-4, un modèle doté de 1,76 billion de paramètres, soit 10 fois plus que GPT-3.

  • L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint un million d'utilisateurs, devenant l'application à atteindre le plus rapidement un million d'utilisateurs dans l'histoire.

  • En 2024, une entreprise d'intelligence artificielle a lancé GPT-4 omni.

Nouveau Guide丨IA x Crypto : De zéro au sommet

Chaîne de valeur de l'apprentissage profond

Les modèles de langage actuels sont tous basés sur des méthodes d'apprentissage profond utilisant des réseaux de neurones. Avec GPT en tête, les grands modèles ont suscité une vague d'engouement pour l'intelligence artificielle, attirant de nombreux acteurs dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne industrielle des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par des algorithmes d'apprentissage profond, comment sont constitués les acteurs en amont et en aval, et quelle est la situation actuelle ainsi que la relation entre l'offre et la demande, et le développement futur.

Tout d'abord, il est important de préciser que lors de l'entraînement des grands modèles LLMs dirigés par GPT basés sur la technologie Transformer, il y a en tout trois étapes.

Avant l'entraînement, étant basé sur le Transformer, le convertisseur doit transformer les entrées textuelles en valeurs numériques, ce processus est appelé "Tokenization". Par la suite, ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être grossièrement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est aussi l'unité de base utilisée pour la tarification de GPT.

Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, similaires à l'exemple donné dans la première partie du rapport (X,Y), pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, ce processus nécessite une grande quantité de données et est également le processus le plus coûteux en calcul, car il faut itérer les neurones pour essayer divers paramètres. Une fois qu'un lot de paires de données a été entraîné, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.

Deuxième étape, le fine-tuning. Le fine-tuning consiste à fournir un petit lot de données de très haute qualité pour l'entraînement, ce qui permet d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de ces données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de qualité supérieure.

Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense". L'objectif de ce modèle est très simple, il s'agit de classer les résultats de sortie, donc la réalisation de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'avoir une intervention humaine pour évaluer la qualité de la sortie du modèle ).

En résumé, pendant le processus d'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU nécessaire est également la plus importante. D'autre part, l'ajustement fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises via un modèle de récompense pour produire des résultats de meilleure qualité.

Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous prenons avec une fonction, Y = aX + b, il y a en fait deux neurones, X et X0. Ainsi, peu importe comment les paramètres changent, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors plus de paramètres peuvent être itérés, ce qui permet d'ajuster plus de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est aussi pourquoi on les appelle communément de grands modèles. Leur essence réside dans une multitude de neurones et de paramètres, ainsi qu'une quantité massive de données, nécessitant en même temps une puissance de calcul énorme.

Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats du grand modèle et sa capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n( calculée en fonction du nombre de Tokens), nous pouvons alors estimer la puissance de calcul requise en utilisant des règles empiriques générales, ce qui nous permet d'évaluer approximativement la puissance de calcul que nous devons acheter et le temps d'entraînement nécessaire.

La puissance de calcul est généralement mesurée en Flops, représentant une opération flottante. Les opérations flottantes sont un terme générique pour l'addition, la soustraction, la multiplication et la division de valeurs non entières, comme 2.5 + 3.557. Le terme flottant indique la capacité à avoir des décimales, tandis que FP16 représente une précision qui prend en charge les décimales, et FP32 est plus couramment utilisé.

GPT-8.86%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Partager
Commentaire
0/400
YieldHuntervip
· Il y a 2h
hmm gain de productivité de 20 % ? techniquement parlant, les données semblent suspectes af... probablement juste un autre schéma de Ponzi ai tbh
Voir l'originalRépondre0
pvt_key_collectorvip
· 08-03 12:52
Ne vous inquiétez pas, travailleurs.
Voir l'originalRépondre0
DeFiCaffeinatorvip
· 08-03 12:50
GPT incroyable个锤子啊
Voir l'originalRépondre0
PaperHandSistervip
· 08-03 12:30
Ah ? Encore parler d'IA ? C'est piégeux !
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)