OpenAI va résoudre des problèmes mathématiques pour GPT-4 : le modèle de récompense est erroné et le niveau de résolution de problèmes a atteint un nouveau niveau
Pour les problèmes de raisonnement mathématique difficiles étape par étape, est-il plus efficace de donner des récompenses à chaque étape ou une seule récompense à la fin ? De nouvelles recherches d'OpenAI ont leur réponse.
Source de l'image : générée par l'outil d'IA illimitée
Aujourd'hui, les grands modèles de langage inaugurent l'ère de "l'omnipotent", dans laquelle la capacité à effectuer un raisonnement complexe en plusieurs étapes a également été considérablement améliorée. Pourtant, même les grands modèles à la pointe de la technologie peuvent produire des erreurs logiques, souvent appelées hallucinations. Par conséquent, l'atténuation des hallucinations est une étape cruciale dans la construction d'AGI alignés.
Afin de former un modèle plus fiable, il existe actuellement deux méthodes différentes pour former le modèle de récompense, l'une est la supervision des résultats et l'autre est la supervision des processus. Les modèles de récompense supervisés par les résultats (ORM) sont formés en utilisant uniquement le résultat final de la chaîne de pensée du modèle, tandis que les modèles de récompense supervisés par le processus (PRM) reçoivent des récompenses pour chaque étape de la chaîne de pensée.
Compte tenu de l'importance de la formation de modèles fiables et du coût élevé de la rétroaction humaine, il est important de comparer soigneusement la supervision des résultats avec la supervision des processus. Si des travaux récents ont procédé à cette comparaison, de nombreuses questions demeurent.
Dans cet article, OpenAI étudie et constate que la supervision des processus surpasse de manière significative la supervision des résultats lors de la formation de modèles pour résoudre des problèmes sur l'ensemble de données MATH. OpenAI a résolu 78 % des problèmes sur un sous-ensemble représentatif de l'ensemble de tests MATH en utilisant son propre modèle PRM.
De plus, pour soutenir la recherche connexe, OpenAI a également ouvert les sources PRM800K, un ensemble de données complet contenant 800 000 étiquettes de rétroaction humaine au niveau des étapes, pour former leurs modèles de récompense optimaux.
Ce qui suit est un exemple d'une question et d'une réponse réelles (vrais positifs). Ce problème et les autres exemples de problèmes cités par OpenAI proviennent de GPT-4. Ce problème de trigonométrie difficile nécessite l'application non évidente de plusieurs identités successives. La plupart des tentatives de solution échouent car il est difficile de savoir quelles identités sont réellement utiles. Bien que GPT-4 échoue généralement à résoudre ce problème (seulement 0,1 % correct), notre modèle de récompense identifie correctement que cette solution est efficace.
Regardons un autre exemple de réponse à une question faussement positive. Dans la quatrième étape, GPT-4 a faussement affirmé que la séquence se répétait tous les 12 termes, alors qu'elle se répétait en fait tous les 10 termes. Cette erreur de comptage trompe parfois les modèles de récompense.
"Le résultat vraiment intéressant de l'utilisation des LLM pour résoudre des problèmes mathématiques est qu'il est plus efficace de superviser chaque étape que de simplement vérifier la réponse", a déclaré Jan Leike, l'un des auteurs de l'article et responsable de l'équipe OpenAI Alignment.
Selon Jim Fan, un scientifique en intelligence artificielle chez Nvidia, "le but de cet article est simple : pour les problèmes difficiles étape par étape, des récompenses sont données à chaque étape, plutôt qu'une seule récompense à la fin. Fondamentalement, des signaux de récompense denses > clairsemé."
Examinons de plus près les méthodes et les résultats de l'article OpenAI.
Adresse papier :
Adresse de l'ensemble de données :
Aperçu de la méthode
L'étude compare la supervision des résultats à la supervision des processus en suivant une approche similaire à celle de Uesato et al (2022). Il convient de noter que cette étude ne fournit aucune surveillance humaine des résultats, car toutes les questions de l'ensemble de données MATH ont des réponses automatiquement vérifiables. En revanche, il n'existe pas de moyen simple d'automatiser la supervision des processus. L'étude s'appuie sur des étiqueteurs de données humains pour assurer la supervision du processus, en particulier l'exactitude de chaque étape de la solution qui nécessite la génération d'un modèle d'étiquetage humain. L'étude a mené des expériences à grande et à petite échelle.
portée
Pour chaque taille de modèle, l'étude utilise un modèle fixe pour générer toutes les solutions. Ce modèle s'appelle un générateur, et OpenAI dit qu'il n'améliorera pas le générateur avec l'apprentissage par renforcement (RL).
Modèle de base
Tous les grands modèles sont affinés sur la base du modèle GPT-4. L'étude a également ajouté une étape de pré-formation supplémentaire - affiner tous les modèles sur MathMix, un ensemble de données contenant environ 1,5 milliard de jetons liés aux mathématiques. Comme Lewkowycz et al (2022), l'équipe de recherche d'OpenAI a découvert que cette approche améliore la capacité de raisonnement mathématique du modèle.
Constructeur
Pour faciliter l'analyse des étapes individuelles, l'étude a entraîné le générateur à générer des solutions avec des étapes séparées par des retours à la ligne. Plus précisément, l'étude utilise des solutions de génération de quelques coups aux problèmes de formation MATH, filtre les solutions qui mènent à la bonne réponse finale et affine le modèle de base pour une époque sur cet ensemble de données.
collecte de données
Pour collecter des données supervisées par processus, l'étude montre aux étiqueteurs de données humains des solutions étape par étape aux problèmes mathématiques échantillonnés par des générateurs à grande échelle. La tâche d'un étiqueteur de données humain consiste à attribuer une étiquette positive, négative ou neutre à chaque étape de la solution, comme illustré à la figure 1 ci-dessous.
L'étude ne marque que les solutions produites par de grands générateurs pour maximiser la valeur des ressources de données artificielles limitées. L'étude fait référence à l'ensemble de données complet étiqueté par étapes comme PRM800K. L'ensemble de formation PRM800K contient 800 000 étiquettes d'étape couvrant 75 000 solutions à 12 000 problèmes. Pour minimiser le surajustement, l'ensemble de formation PRM800K contient des données provenant de problèmes de test 4.5K de MATH, et le modèle n'est évalué que sur les 500 problèmes de test restants de MATH.
Modèle de récompense supervisé par les résultats (ORM)
Cette étude forme un ORM en suivant une approche similaire à Cobbe et al. (2021), et échantillonne un nombre fixe de solutions à chaque problème à partir du générateur, puis forme l'ORM pour prédire si chaque solution est correcte ou non. En pratique, il est courant de vérifier automatiquement l'exactitude de la réponse finale, mais les étiqueteurs humains fournissent en principe les étiquettes. Au moment du test, l'étude utilise la prédiction de l'ORM au jeton final comme score total pour chaque solution.
Modèle de récompense de la supervision des processus (PRM)
PRM est utilisé pour prédire l'exactitude des étapes après le dernier jeton de chaque étape. Cette prédiction prend la forme de jetons individuels, et OpenAI maximise la log-vraisemblance de ces jetons cibles pendant la formation. Par conséquent, les PRM peuvent être formés dans des pipelines de modèles de langage standard sans aucune adaptation particulière.
La figure 2 montre deux solutions au même problème, la réponse de gauche est correcte et la réponse de droite est fausse. Un fond vert indique un score PRM élevé et un fond rouge indique un score PRM bas. PRM peut identifier correctement les erreurs dans les solutions d'erreurs.
Lors de l'exécution de la supervision des processus, OpenAI choisit délibérément de ne superviser que la première étape d'erreur, ce qui rend la comparaison entre la supervision des résultats et la supervision des processus plus simple. Pour la bonne solution, les deux méthodes fournissent les mêmes informations car chaque étape est la bonne façon de résoudre le problème. Pour les solutions erronées, les deux méthodes révèlent au moins une erreur, et la surveillance du processus révèle également l'emplacement exact de l'erreur.
Surveillance de masse
OpenAI utilise l'ensemble de données supervisé à processus complet PRM800K pour former PRM. Afin de rendre le benchmark ORM plus puissant, OpenAI forme également 100 échantillons pour chaque question. Ces échantillons proviennent tous du générateur, il n'y a donc pas d'échantillon qui se chevauche entre l'ORM ensemble de formation et PRM800K .
La figure ci-dessous montre une comparaison des modèles de récompense et des schémas de vote supervisés par les résultats et supervisés par les processus, montrant que le PRM est plus efficace que l'ORM et le vote à la majorité dans la recherche de solutions générées par le modèle.
Supervision complète à petite échelle
Afin de mieux comparer la supervision des résultats et la supervision des processus, la première chose à noter est que les ensembles d'entraînement ORM et PRM ne sont pas directement comparables. L'ensemble d'entraînement PRM est construit à l'aide d'un apprentissage actif et est biaisé en faveur de solutions avec de mauvaises réponses. ordre de grandeur moins.
** Surveillance du processus VS surveillance des résultats **
OpenAI échantillonne d'abord 1 à 200 solutions pour chaque problème à partir du générateur à petite échelle. Pour chaque ensemble de données, OpenAI fournit trois formes de supervision : la supervision du processus à partir de PRM_large, la supervision des résultats à partir de PRM_large et la supervision des résultats à partir de la vérification de la réponse finale.
La figure 4a montre que la supervision du processus est significativement meilleure que les deux autres formes de supervision des résultats ; la figure 4b montre que la supervision des résultats avec PRM_large est significativement plus efficace que la supervision des résultats avec vérification de la réponse finale.
Généralisation OOD
Pour mesurer les performances des modèles généralisant hors distribution (OOD), OpenAI évalue ORM et PRM à grande échelle sur un hold-out (méthode hold-out) composé de 224 problèmes STEM du dernier AP Physics (American University Advanced Placement (AP ), AP Calculus, AP Chemistry, AMC10 (comprise comme un concours de mathématiques) et AMC12, le modèle n'a pas vu ces questions. Les 100 meilleures performances pour l'ORM, le PRM et le vote à la majorité sont présentées dans le tableau 1. montre que PRM surpasse à la fois ORM et le vote à la majorité, et implique que les performances de PRM sur les nouveaux problèmes de test restent les mêmes.
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
OpenAI va résoudre des problèmes mathématiques pour GPT-4 : le modèle de récompense est erroné et le niveau de résolution de problèmes a atteint un nouveau niveau
Source : Cœur de la machine
Aujourd'hui, les grands modèles de langage inaugurent l'ère de "l'omnipotent", dans laquelle la capacité à effectuer un raisonnement complexe en plusieurs étapes a également été considérablement améliorée. Pourtant, même les grands modèles à la pointe de la technologie peuvent produire des erreurs logiques, souvent appelées hallucinations. Par conséquent, l'atténuation des hallucinations est une étape cruciale dans la construction d'AGI alignés.
Afin de former un modèle plus fiable, il existe actuellement deux méthodes différentes pour former le modèle de récompense, l'une est la supervision des résultats et l'autre est la supervision des processus. Les modèles de récompense supervisés par les résultats (ORM) sont formés en utilisant uniquement le résultat final de la chaîne de pensée du modèle, tandis que les modèles de récompense supervisés par le processus (PRM) reçoivent des récompenses pour chaque étape de la chaîne de pensée.
Compte tenu de l'importance de la formation de modèles fiables et du coût élevé de la rétroaction humaine, il est important de comparer soigneusement la supervision des résultats avec la supervision des processus. Si des travaux récents ont procédé à cette comparaison, de nombreuses questions demeurent.
Dans cet article, OpenAI étudie et constate que la supervision des processus surpasse de manière significative la supervision des résultats lors de la formation de modèles pour résoudre des problèmes sur l'ensemble de données MATH. OpenAI a résolu 78 % des problèmes sur un sous-ensemble représentatif de l'ensemble de tests MATH en utilisant son propre modèle PRM.
De plus, pour soutenir la recherche connexe, OpenAI a également ouvert les sources PRM800K, un ensemble de données complet contenant 800 000 étiquettes de rétroaction humaine au niveau des étapes, pour former leurs modèles de récompense optimaux.
Adresse de l'ensemble de données :
Aperçu de la méthode
L'étude compare la supervision des résultats à la supervision des processus en suivant une approche similaire à celle de Uesato et al (2022). Il convient de noter que cette étude ne fournit aucune surveillance humaine des résultats, car toutes les questions de l'ensemble de données MATH ont des réponses automatiquement vérifiables. En revanche, il n'existe pas de moyen simple d'automatiser la supervision des processus. L'étude s'appuie sur des étiqueteurs de données humains pour assurer la supervision du processus, en particulier l'exactitude de chaque étape de la solution qui nécessite la génération d'un modèle d'étiquetage humain. L'étude a mené des expériences à grande et à petite échelle.
portée
Pour chaque taille de modèle, l'étude utilise un modèle fixe pour générer toutes les solutions. Ce modèle s'appelle un générateur, et OpenAI dit qu'il n'améliorera pas le générateur avec l'apprentissage par renforcement (RL).
Modèle de base
Tous les grands modèles sont affinés sur la base du modèle GPT-4. L'étude a également ajouté une étape de pré-formation supplémentaire - affiner tous les modèles sur MathMix, un ensemble de données contenant environ 1,5 milliard de jetons liés aux mathématiques. Comme Lewkowycz et al (2022), l'équipe de recherche d'OpenAI a découvert que cette approche améliore la capacité de raisonnement mathématique du modèle.
Constructeur
Pour faciliter l'analyse des étapes individuelles, l'étude a entraîné le générateur à générer des solutions avec des étapes séparées par des retours à la ligne. Plus précisément, l'étude utilise des solutions de génération de quelques coups aux problèmes de formation MATH, filtre les solutions qui mènent à la bonne réponse finale et affine le modèle de base pour une époque sur cet ensemble de données.
collecte de données
Pour collecter des données supervisées par processus, l'étude montre aux étiqueteurs de données humains des solutions étape par étape aux problèmes mathématiques échantillonnés par des générateurs à grande échelle. La tâche d'un étiqueteur de données humain consiste à attribuer une étiquette positive, négative ou neutre à chaque étape de la solution, comme illustré à la figure 1 ci-dessous.
Modèle de récompense supervisé par les résultats (ORM)
Cette étude forme un ORM en suivant une approche similaire à Cobbe et al. (2021), et échantillonne un nombre fixe de solutions à chaque problème à partir du générateur, puis forme l'ORM pour prédire si chaque solution est correcte ou non. En pratique, il est courant de vérifier automatiquement l'exactitude de la réponse finale, mais les étiqueteurs humains fournissent en principe les étiquettes. Au moment du test, l'étude utilise la prédiction de l'ORM au jeton final comme score total pour chaque solution.
Modèle de récompense de la supervision des processus (PRM)
PRM est utilisé pour prédire l'exactitude des étapes après le dernier jeton de chaque étape. Cette prédiction prend la forme de jetons individuels, et OpenAI maximise la log-vraisemblance de ces jetons cibles pendant la formation. Par conséquent, les PRM peuvent être formés dans des pipelines de modèles de langage standard sans aucune adaptation particulière.
La figure 2 montre deux solutions au même problème, la réponse de gauche est correcte et la réponse de droite est fausse. Un fond vert indique un score PRM élevé et un fond rouge indique un score PRM bas. PRM peut identifier correctement les erreurs dans les solutions d'erreurs.
Surveillance de masse
OpenAI utilise l'ensemble de données supervisé à processus complet PRM800K pour former PRM. Afin de rendre le benchmark ORM plus puissant, OpenAI forme également 100 échantillons pour chaque question. Ces échantillons proviennent tous du générateur, il n'y a donc pas d'échantillon qui se chevauche entre l'ORM ensemble de formation et PRM800K .
La figure ci-dessous montre une comparaison des modèles de récompense et des schémas de vote supervisés par les résultats et supervisés par les processus, montrant que le PRM est plus efficace que l'ORM et le vote à la majorité dans la recherche de solutions générées par le modèle.
Afin de mieux comparer la supervision des résultats et la supervision des processus, la première chose à noter est que les ensembles d'entraînement ORM et PRM ne sont pas directement comparables. L'ensemble d'entraînement PRM est construit à l'aide d'un apprentissage actif et est biaisé en faveur de solutions avec de mauvaises réponses. ordre de grandeur moins.
** Surveillance du processus VS surveillance des résultats **
OpenAI échantillonne d'abord 1 à 200 solutions pour chaque problème à partir du générateur à petite échelle. Pour chaque ensemble de données, OpenAI fournit trois formes de supervision : la supervision du processus à partir de PRM_large, la supervision des résultats à partir de PRM_large et la supervision des résultats à partir de la vérification de la réponse finale.
La figure 4a montre que la supervision du processus est significativement meilleure que les deux autres formes de supervision des résultats ; la figure 4b montre que la supervision des résultats avec PRM_large est significativement plus efficace que la supervision des résultats avec vérification de la réponse finale.
Pour mesurer les performances des modèles généralisant hors distribution (OOD), OpenAI évalue ORM et PRM à grande échelle sur un hold-out (méthode hold-out) composé de 224 problèmes STEM du dernier AP Physics (American University Advanced Placement (AP ), AP Calculus, AP Chemistry, AMC10 (comprise comme un concours de mathématiques) et AMC12, le modèle n'a pas vu ces questions. Les 100 meilleures performances pour l'ORM, le PRM et le vote à la majorité sont présentées dans le tableau 1. montre que PRM surpasse à la fois ORM et le vote à la majorité, et implique que les performances de PRM sur les nouveaux problèmes de test restent les mêmes.