Para desafiar problemas de raciocínio matemático passo a passo, é mais eficaz dar recompensas em cada etapa ou uma única recompensa no final? Uma nova pesquisa da OpenAI tem sua resposta.
Fonte da imagem: Gerada pela ferramenta Unbounded AI
Agora, os grandes modelos de linguagem inauguram a era do "onipotente", na qual a capacidade de realizar um raciocínio complexo em várias etapas também foi bastante aprimorada. Ainda assim, mesmo modelos grandes e de última geração podem produzir erros lógicos, muitas vezes chamados de alucinações. Portanto, aliviar as alucinações é uma etapa crucial na construção de AGI alinhada.
Para treinar um modelo mais confiável, atualmente existem dois métodos diferentes para escolher treinar o modelo de recompensa, um é a supervisão de resultados e o outro é a supervisão de processos. Os modelos de recompensa supervisionados por resultados (ORMs) são treinados usando apenas o resultado final da cadeia de pensamento do modelo, enquanto os modelos de recompensa supervisionados por processo (PRMs) recebem recompensas para cada etapa da cadeia de pensamento.
Dada a importância de treinar modelos confiáveis e o alto custo do feedback humano, é importante comparar cuidadosamente a supervisão de resultados com a supervisão de processos. Embora trabalhos recentes tenham realizado essa comparação, muitas questões permanecem.
Neste artigo, a OpenAI investiga e descobre que a supervisão de processos supera significativamente a supervisão de resultados ao treinar modelos para resolver problemas no conjunto de dados MATH. O OpenAI resolveu 78% dos problemas em um subconjunto representativo do conjunto de testes MATH usando seu próprio modelo PRM.
Além disso, para dar suporte a pesquisas relacionadas, a OpenAI também abre o PRM800K, um conjunto de dados completo contendo 800 mil rótulos de feedback humano em nível de etapa, para treinar seus modelos de recompensa ideais.
O seguinte é um exemplo de uma pergunta e resposta real (verdadeiro positivo). Este problema e os outros exemplos de problemas citados pelo OpenAI são do GPT-4. Este desafiador problema de trigonometria requer a aplicação não óbvia de múltiplas identidades em sucessão. A maioria das tentativas de solução falha porque é difícil saber quais identidades são realmente úteis. Embora o GPT-4 geralmente não resolva esse problema (apenas 0,1% correto), nosso modelo de recompensa identifica corretamente que essa solução é eficaz.
Vejamos outro exemplo de resposta de pergunta de falso positivo. Na quarta etapa, o GPT-4 afirmou falsamente que a sequência se repetia a cada 12 termos, quando na verdade se repetia a cada 10 termos. Esse erro de contagem ocasionalmente engana os modelos de recompensa.
“O resultado realmente interessante do uso de LLMs para resolver problemas matemáticos é que é mais eficaz supervisionar cada etapa do que apenas verificar a resposta”, disse Jan Leike, um dos autores do artigo e chefe da equipe OpenAI Alignment.
De acordo com Jim Fan, cientista de IA da Nvidia, "o objetivo deste artigo é simples: para problemas desafiadores passo a passo, recompensas são dadas a cada etapa, em vez de uma única recompensa no final. Fundamentalmente, sinais de recompensa densos > escasso."
Vamos dar uma olhada mais de perto nos métodos e resultados do artigo da OpenAI.
Endereço de papel:
Endereço do conjunto de dados:
Visão geral do método
O estudo compara a supervisão de resultados com a supervisão de processos seguindo uma abordagem semelhante a Uesato e outros (2022). Vale a pena notar que este estudo não fornece supervisão humana dos resultados, pois todas as perguntas no conjunto de dados MATH têm respostas automaticamente verificáveis. Por outro lado, não há uma maneira fácil de automatizar a supervisão do processo. O estudo conta com rotuladores de dados humanos para fornecer supervisão do processo, especificamente a correção de cada etapa da solução que requer geração de modelo de rotulagem humana. O estudo conduziu experimentos em ambientes de grande e pequena escala.
escopo
Para cada tamanho de modelo, o estudo usa um modelo fixo para gerar todas as soluções. Esse modelo é chamado de gerador, e a OpenAI diz que não melhorará o gerador com aprendizado por reforço (RL).
Modelo básico
Todos os modelos grandes são ajustados com base no modelo GPT-4. O estudo também adicionou uma etapa adicional de pré-treinamento – ajuste fino de todos os modelos no MathMix, um conjunto de dados contendo cerca de 1,5 bilhão de tokens relacionados à matemática. Semelhante a Lewkowycz e outros (2022), a equipe de pesquisa da OpenAI descobriu que essa abordagem melhora a capacidade de raciocínio matemático do modelo.
Construtor
Para facilitar a análise de etapas individuais, o estudo treinou o gerador para gerar soluções com etapas separadas por novas linhas. Especificamente, o estudo usa soluções de geração de poucos tiros para problemas de treinamento de MATH, filtra as soluções que levam à resposta correta final e ajusta o modelo básico para uma época neste conjunto de dados.
coleção de dados
Para coletar dados supervisionados pelo processo, o estudo mostra soluções passo a passo de rotuladores de dados humanos para problemas matemáticos amostrados por geradores de grande escala. A tarefa de um rotulador de dados humano é atribuir um rótulo positivo, negativo ou neutro a cada etapa da solução, conforme mostrado na Figura 1 abaixo.
O estudo apenas rotula soluções produzidas por grandes geradores para maximizar o valor de recursos de dados artificiais limitados. O estudo refere-se ao conjunto de dados inteiro rotulado passo a passo coletado como PRM800K. O conjunto de treinamento PRM800K contém rótulos de 800.000 etapas, abrangendo 75.000 soluções para 12.000 problemas. Para minimizar o overfitting, o conjunto de treinamento PRM800K contém dados de 4,5 mil problemas de teste de MATH, e o modelo é avaliado apenas nos 500 problemas de teste restantes de MATH.
Modelo de Recompensa Supervisionada por Resultado (ORM)
Este estudo treina um ORM seguindo uma abordagem semelhante a Cobbe e outros (2021), e amostra um número fixo de soluções para cada problema do gerador, então treina o ORM para prever se cada solução está correta ou não. Na prática, é prática comum verificar automaticamente se a resposta final está correta, mas os rotuladores humanos fornecem os rótulos em princípio. No momento do teste, o estudo usa a previsão do ORM no token final como a pontuação total para cada solução.
Modelo de Recompensa de Supervisão de Processo (PRM)
O PRM é usado para prever a correção das etapas após o último token em cada etapa. Essa previsão assume a forma de tokens individuais e o OpenAI maximiza a probabilidade de registro desses tokens de destino durante o treinamento. Portanto, os PRMs podem ser treinados em pipelines de modelo de linguagem padrão sem nenhuma adaptação especial.
A Figura 2 mostra duas soluções para o mesmo problema, a resposta à esquerda está correta e a resposta à direita está errada. Um fundo verde indica uma pontuação alta de PRM e um fundo vermelho indica uma pontuação baixa de PRM. O PRM pode identificar corretamente erros em soluções de erro.
Ao realizar a supervisão do processo, a OpenAI escolhe deliberadamente supervisionar apenas a primeira etapa de erro, tornando a comparação entre a supervisão de resultado e a supervisão de processo mais direta. Para a solução correta, ambos os métodos fornecem as mesmas informações porque cada etapa é a maneira correta de resolver o problema. Para soluções errôneas, ambos os métodos revelam pelo menos um erro, e o monitoramento do processo também revela a localização exata do erro.
Vigilância em massa
O OpenAI usa o conjunto de dados supervisionado de processo completo PRM800K para treinar o PRM. Para tornar o benchmark ORM mais poderoso, o OpenAI também treina 100 amostras para cada pergunta. Essas amostras são todas do gerador, portanto não há amostra sobreposta entre o ORM conjunto de treinamento e PRM800K.
A figura abaixo mostra uma comparação de modelos de recompensa supervisionados por resultados e supervisionados por processos e esquemas de votação, mostrando que o PRM é mais eficaz do que ORM e voto majoritário na busca de soluções geradas pelo modelo.
Supervisão abrangente de pequena escala
Para melhor comparar a supervisão de resultados e a supervisão de processos, a primeira coisa a observar é que os conjuntos de treinamento de ORM e PRM não são diretamente comparáveis. O conjunto de treinamento PRM é construído usando aprendizado ativo e tende a soluções com respostas erradas. ordem de grandeza menor.
Monitoramento de Processos VS Monitoramento de Resultados
O primeiro OpenAI amostra de 1 a 200 soluções para cada problema do gerador de pequena escala. Para cada conjunto de dados, o OpenAI fornece três formas de supervisão: supervisão de processo de PRM_large, supervisão de resultado de PRM_large e supervisão de resultado de verificação de resposta final.
A Figura 4a mostra que a supervisão do processo é significativamente melhor do que as outras duas formas de supervisão de resultados; A Figura 4b mostra que a supervisão de resultados com PRM_large é significativamente mais eficaz do que a supervisão de resultados com verificação de resposta final.
Generalização OOD
Para medir o desempenho de modelos generalizando fora de distribuição (OOD), OpenAI avalia ORM e PRM em larga escala em um hold-out (método hold-out) que consiste em 224 problemas STEM da mais recente AP Physics (American University Advanced Placement (AP ), AP Calculus, AP Chemistry, AMC10 (entendido como uma competição de matemática) e exames AMC12, o modelo não viu essas questões. Os 100 melhores desempenhos para ORM, PRM e votação por maioria são relatados na Tabela 1. mostra que o PRM supera o ORM e a votação por maioria e implica que o desempenho do PRM em novos problemas de teste permanece o mesmo.
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
OpenAI vai resolver problemas de matemática para GPT-4: o modelo de recompensa está errado e o nível de resolução de problemas atingiu um novo nível
Fonte: Coração da Máquina
Agora, os grandes modelos de linguagem inauguram a era do "onipotente", na qual a capacidade de realizar um raciocínio complexo em várias etapas também foi bastante aprimorada. Ainda assim, mesmo modelos grandes e de última geração podem produzir erros lógicos, muitas vezes chamados de alucinações. Portanto, aliviar as alucinações é uma etapa crucial na construção de AGI alinhada.
Para treinar um modelo mais confiável, atualmente existem dois métodos diferentes para escolher treinar o modelo de recompensa, um é a supervisão de resultados e o outro é a supervisão de processos. Os modelos de recompensa supervisionados por resultados (ORMs) são treinados usando apenas o resultado final da cadeia de pensamento do modelo, enquanto os modelos de recompensa supervisionados por processo (PRMs) recebem recompensas para cada etapa da cadeia de pensamento.
Dada a importância de treinar modelos confiáveis e o alto custo do feedback humano, é importante comparar cuidadosamente a supervisão de resultados com a supervisão de processos. Embora trabalhos recentes tenham realizado essa comparação, muitas questões permanecem.
Neste artigo, a OpenAI investiga e descobre que a supervisão de processos supera significativamente a supervisão de resultados ao treinar modelos para resolver problemas no conjunto de dados MATH. O OpenAI resolveu 78% dos problemas em um subconjunto representativo do conjunto de testes MATH usando seu próprio modelo PRM.
Além disso, para dar suporte a pesquisas relacionadas, a OpenAI também abre o PRM800K, um conjunto de dados completo contendo 800 mil rótulos de feedback humano em nível de etapa, para treinar seus modelos de recompensa ideais.
Endereço do conjunto de dados:
Visão geral do método
O estudo compara a supervisão de resultados com a supervisão de processos seguindo uma abordagem semelhante a Uesato e outros (2022). Vale a pena notar que este estudo não fornece supervisão humana dos resultados, pois todas as perguntas no conjunto de dados MATH têm respostas automaticamente verificáveis. Por outro lado, não há uma maneira fácil de automatizar a supervisão do processo. O estudo conta com rotuladores de dados humanos para fornecer supervisão do processo, especificamente a correção de cada etapa da solução que requer geração de modelo de rotulagem humana. O estudo conduziu experimentos em ambientes de grande e pequena escala.
escopo
Para cada tamanho de modelo, o estudo usa um modelo fixo para gerar todas as soluções. Esse modelo é chamado de gerador, e a OpenAI diz que não melhorará o gerador com aprendizado por reforço (RL).
Modelo básico
Todos os modelos grandes são ajustados com base no modelo GPT-4. O estudo também adicionou uma etapa adicional de pré-treinamento – ajuste fino de todos os modelos no MathMix, um conjunto de dados contendo cerca de 1,5 bilhão de tokens relacionados à matemática. Semelhante a Lewkowycz e outros (2022), a equipe de pesquisa da OpenAI descobriu que essa abordagem melhora a capacidade de raciocínio matemático do modelo.
Construtor
Para facilitar a análise de etapas individuais, o estudo treinou o gerador para gerar soluções com etapas separadas por novas linhas. Especificamente, o estudo usa soluções de geração de poucos tiros para problemas de treinamento de MATH, filtra as soluções que levam à resposta correta final e ajusta o modelo básico para uma época neste conjunto de dados.
coleção de dados
Para coletar dados supervisionados pelo processo, o estudo mostra soluções passo a passo de rotuladores de dados humanos para problemas matemáticos amostrados por geradores de grande escala. A tarefa de um rotulador de dados humano é atribuir um rótulo positivo, negativo ou neutro a cada etapa da solução, conforme mostrado na Figura 1 abaixo.
Modelo de Recompensa Supervisionada por Resultado (ORM)
Este estudo treina um ORM seguindo uma abordagem semelhante a Cobbe e outros (2021), e amostra um número fixo de soluções para cada problema do gerador, então treina o ORM para prever se cada solução está correta ou não. Na prática, é prática comum verificar automaticamente se a resposta final está correta, mas os rotuladores humanos fornecem os rótulos em princípio. No momento do teste, o estudo usa a previsão do ORM no token final como a pontuação total para cada solução.
Modelo de Recompensa de Supervisão de Processo (PRM)
O PRM é usado para prever a correção das etapas após o último token em cada etapa. Essa previsão assume a forma de tokens individuais e o OpenAI maximiza a probabilidade de registro desses tokens de destino durante o treinamento. Portanto, os PRMs podem ser treinados em pipelines de modelo de linguagem padrão sem nenhuma adaptação especial.
A Figura 2 mostra duas soluções para o mesmo problema, a resposta à esquerda está correta e a resposta à direita está errada. Um fundo verde indica uma pontuação alta de PRM e um fundo vermelho indica uma pontuação baixa de PRM. O PRM pode identificar corretamente erros em soluções de erro.
Vigilância em massa
O OpenAI usa o conjunto de dados supervisionado de processo completo PRM800K para treinar o PRM. Para tornar o benchmark ORM mais poderoso, o OpenAI também treina 100 amostras para cada pergunta. Essas amostras são todas do gerador, portanto não há amostra sobreposta entre o ORM conjunto de treinamento e PRM800K.
A figura abaixo mostra uma comparação de modelos de recompensa supervisionados por resultados e supervisionados por processos e esquemas de votação, mostrando que o PRM é mais eficaz do que ORM e voto majoritário na busca de soluções geradas pelo modelo.
Para melhor comparar a supervisão de resultados e a supervisão de processos, a primeira coisa a observar é que os conjuntos de treinamento de ORM e PRM não são diretamente comparáveis. O conjunto de treinamento PRM é construído usando aprendizado ativo e tende a soluções com respostas erradas. ordem de grandeza menor.
Monitoramento de Processos VS Monitoramento de Resultados
O primeiro OpenAI amostra de 1 a 200 soluções para cada problema do gerador de pequena escala. Para cada conjunto de dados, o OpenAI fornece três formas de supervisão: supervisão de processo de PRM_large, supervisão de resultado de PRM_large e supervisão de resultado de verificação de resposta final.
A Figura 4a mostra que a supervisão do processo é significativamente melhor do que as outras duas formas de supervisão de resultados; A Figura 4b mostra que a supervisão de resultados com PRM_large é significativamente mais eficaz do que a supervisão de resultados com verificação de resposta final.
Para medir o desempenho de modelos generalizando fora de distribuição (OOD), OpenAI avalia ORM e PRM em larga escala em um hold-out (método hold-out) que consiste em 224 problemas STEM da mais recente AP Physics (American University Advanced Placement (AP ), AP Calculus, AP Chemistry, AMC10 (entendido como uma competição de matemática) e exames AMC12, o modelo não viu essas questões. Os 100 melhores desempenhos para ORM, PRM e votação por maioria são relatados na Tabela 1. mostra que o PRM supera o ORM e a votação por maioria e implica que o desempenho do PRM em novos problemas de teste permanece o mesmo.