La classe ChatGPT de Wu Enda a explosé : l'IA a renoncé à écrire des mots à l'envers, mais a compris le monde entier

Source : Qubit

De manière inattendue, même aujourd'hui, ChatGPT fera encore des erreurs de bas niveau ?

Dieu Wu Enda l'a souligné dans le dernier cours :

ChatGPT n'inverse pas les mots !

Par exemple, laissez-le inverser le mot sucette, et la sortie est pilollol, ce qui est complètement déroutant.

Oh, c'est en effet un peu éblouissant.

À tel point qu'après que les internautes qui ont assisté au cours ont posté sur Reddit, ils ont immédiatement attiré un grand nombre de spectateurs, et la popularité des messages s'est précipitée à 6k.

Et ce n'est pas un bogue accidentel.Les internautes ont constaté que ChatGPT est en effet incapable de terminer cette tâche, et le résultat de notre test personnel est le même.

△ ChatGPT mesuré (GPT-3.5)

Pas même beaucoup de produits, dont Bard, Bing et Wenxin Yiyan.

△ Barde mesurée

△ Tester le cœur et l'esprit d'un mot

Certaines personnes ont suivi et se sont plaintes que ChatGPT est terrible pour gérer ces simples tâches de mots.

Par exemple, jouer à Wordle, le jeu de mots populaire auparavant, a été un désastre et n'a jamais été bien fait.

Hein ? Pourquoi?

La clé est le jeton

La raison de ce phénomène réside dans le jeton. Les jetons sont les séquences de caractères les plus courantes dans le texte, et les grands modèles utilisent des jetons pour traiter le texte.

Il peut s'agir d'un mot entier ou d'un fragment de mot. Le grand modèle comprend la relation statistique entre ces jetons et est bon pour générer le prochain jeton.

Ainsi, lorsqu'il s'agit de la petite tâche d'inversion de mot, il se peut qu'il retourne simplement chaque jeton, pas la lettre.

C'est encore plus évident dans le contexte chinois : un mot est un jeton, ou un mot est un jeton.

Pour l'exemple du début, quelqu'un a essayé de comprendre le processus de raisonnement de ChatGPT.

Pour une compréhension plus intuitive, OpenAI a même publié un Tokenizer GPT-3.

Par exemple, pour le mot sucette, GPT-3 le comprendra en trois parties : I, oll, ipop.

Selon la conclusion de l'expérience, de telles règles non écrites sont nées.

  • 1 jeton ≈ 4 caractères anglais ≈ 3/4 mots ;
  • 100 jetons ≈ 75 mots ;
  • 1-2 phrases ≈ 30 jetons ;
  • Un paragraphe ≈ 100 jetons, 1500 mots ≈ 2048 jetons ;

La façon dont les mots sont divisés dépend également de la langue. Selon les statistiques précédentes, le nombre de jetons utilisés en chinois est 1,2 à 2,7 fois celui de l'anglais.

Plus le ratio token-to-char (token to word) est élevé, plus le coût de traitement est élevé. Ainsi, le traitement de la tokenisation chinoise est plus cher que l'anglais.

On peut comprendre que token est le moyen pour le grand modèle de comprendre le monde réel des êtres humains. Il est très simple et réduit également considérablement la complexité de la mémoire et du temps.

Cependant, il y a un problème avec la tokenisation des mots, ce qui rendra difficile pour le modèle d'apprendre des représentations d'entrée significatives. La représentation la plus intuitive est qu'il ne peut pas comprendre le sens des mots.

À cette époque, Transformers avait été optimisé en conséquence. Par exemple, un mot complexe et inhabituel était divisé en un jeton significatif et un jeton indépendant.

Tout comme ennuyeux est divisé en "ennuyeux" et "ly", le premier conserve sa sémantique, tandis que le second apparaît fréquemment.

Cela a également contribué aux effets étonnants de ChatGPT et d'autres produits modèles à grande échelle aujourd'hui, qui peuvent très bien comprendre le langage humain.

Quant à une tâche aussi petite que incapable de gérer l'inversion des mots, il existe naturellement une solution.

Le moyen le plus simple et le plus direct est de séparer les mots par vous-même ~

Ou vous pouvez laisser ChatGPT étape par étape, d'abord tokeniser chaque lettre.

Ou laissez-le écrire un programme qui inverse les lettres, puis le résultat du programme est correct. (tête de chien)

Cependant, GPT-4 peut également être utilisé, et il n'y a pas un tel problème dans la mesure réelle.

△ GPT-4 mesuré

En bref, le jeton est la pierre angulaire de l'IA pour comprendre le langage naturel.

En tant que passerelle permettant à l'IA de comprendre le langage naturel humain, l'importance du jeton devient de plus en plus évidente.

C'est devenu un déterminant clé de la performance des modèles d'IA, et c'est aussi une norme de facturation pour les grands modèles.

ont même de la littérature symbolique

Comme mentionné ci-dessus, le jeton peut aider le modèle à capturer des informations sémantiques ** plus fines **, telles que la signification des mots, l'ordre des mots, la structure grammaticale, etc. Son ordre et sa position sont cruciaux dans les tâches de modélisation de séquences telles que la modélisation du langage, la traduction automatique, la génération de texte, etc.

Ce n'est que lorsque le modèle comprend avec précision la position et le contexte de chaque jeton dans la séquence qu'il peut mieux prédire le contenu et donner une sortie raisonnable.

Par conséquent, la qualité et la quantité de token ont un impact direct sur l'effet de modèle.

Depuis le début de cette année, lorsque de plus en plus de grands modèles sortent, le nombre de jetons sera mis en avant.Par exemple, comme mentionné dans les détails d'exposition de Google PaLM 2, il utilise 3,6 billions de jetons pour la formation.

Et de nombreux gros bonnets de l'industrie ont également déclaré que le jeton est vraiment la clé !

Andrej Karpathy, un scientifique de l'IA qui est passé de Tesla à OpenAI cette année, a déclaré dans son discours :

Plus de jetons peuvent permettre au modèle de mieux réfléchir.

Et il a souligné que la performance du modèle n'est pas déterminée uniquement par la taille des paramètres.

Par exemple, l'échelle des paramètres de LLaMA est beaucoup plus petite que celle de GPT-3 (65B contre 175B), mais parce qu'il utilise plus de jetons pour la formation (1,4T contre 300B), LLaMA est plus puissant.

Et en raison de son impact direct sur les performances du modèle, le jeton est également la norme de facturation pour les modèles d'IA.

Prenons l'exemple de la norme de tarification d'OpenAI. Ils facturent en unités de jetons de 1 000. Différents modèles et différents types de jetons ont des prix différents.

En bref, après avoir franchi la porte du domaine des grands modèles d'IA, vous constaterez que le jeton est un point de connaissance incontournable.

Eh bien, cela a même engendré de la littérature symbolique...

Cependant, il convient de mentionner que la traduction du jeton dans le monde chinois n'a pas encore été entièrement déterminée.

La traduction littérale de "jeton" est toujours un peu bizarre.

GPT-4 pense qu'il vaut mieux l'appeler "word element" ou "token", qu'en pensez-vous ?

Lien de référence : [1] [2] [3]

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)