OpenAI va a resolver problemas matemáticos para GPT-4: el modelo de recompensa es incorrecto y el nivel de resolución de problemas ha alcanzado un nuevo nivel

Fuente: Corazón de la Máquina

Para problemas de razonamiento matemático paso a paso desafiantes, ¿es más efectivo dar recompensas en cada paso o una sola recompensa al final? Una nueva investigación de OpenAI tiene su respuesta.

Fuente de la imagen: generada por la herramienta de IA ilimitada

Ahora, los grandes modelos de lenguaje marcan el comienzo de la era "omnipotente", en la que la capacidad de realizar un razonamiento complejo de varios pasos también se ha mejorado considerablemente. Aún así, incluso los modelos grandes y de última generación pueden producir errores lógicos, a menudo llamados alucinaciones. Por lo tanto, aliviar las alucinaciones es un paso crucial en la construcción de un AGI alineado.

Para entrenar un modelo más confiable, actualmente hay dos métodos diferentes para elegir entrenar el modelo de recompensa, uno es la supervisión de resultados y el otro es la supervisión de procesos. Los modelos de recompensa supervisados por resultados (ORM) se entrenan utilizando solo el resultado final de la cadena de pensamiento del modelo, mientras que los modelos de recompensa supervisados por proceso (PRM) reciben recompensas por cada paso en la cadena de pensamiento.

Dada la importancia de entrenar modelos confiables y el alto costo de la retroalimentación humana, es importante comparar cuidadosamente la supervisión de resultados con la supervisión de procesos. Si bien un trabajo reciente ha llevado a cabo esta comparación, quedan muchas preguntas.

En este documento, OpenAI investiga y encuentra que la supervisión de procesos supera significativamente a la supervisión de resultados cuando se entrenan modelos para resolver problemas en el conjunto de datos MATH. OpenAI resolvió el 78 % de los problemas en un subconjunto representativo del conjunto de pruebas MATH utilizando su propio modelo PRM.

Además, para respaldar la investigación relacionada, OpenAI también abre PRM800K, un conjunto de datos completo que contiene etiquetas de retroalimentación humana de nivel de paso de 800K, para entrenar sus modelos de recompensa óptimos.

El siguiente es un ejemplo de una pregunta y respuesta real (Verdadero positivo). Este problema y los otros ejemplos de problemas citados por OpenAI son de GPT-4. Este desafiante problema de trigonometría requiere la aplicación no obvia de múltiples identidades en sucesión. La mayoría de los intentos de solución fallan porque es difícil saber qué identidades son realmente útiles. Aunque GPT-4 generalmente no resuelve este problema (solo el 0,1 % es correcto), nuestro modelo de recompensa identifica correctamente que esta solución es efectiva.

Veamos otro ejemplo de respuesta a una pregunta de falso positivo. En el cuarto paso, GPT-4 afirmó falsamente que la secuencia se repetía cada 12 términos, cuando en realidad se repetía cada 10 términos. Este error de conteo ocasionalmente engaña a los modelos de recompensa.

"El resultado realmente interesante de usar LLM para resolver problemas matemáticos es que es más efectivo supervisar cada paso que solo verificar la respuesta", dijo Jan Leike, uno de los autores del artículo y jefe del equipo de alineación de OpenAI.

Según Jim Fan, un científico de inteligencia artificial de Nvidia, "el objetivo de este documento es simple: para los problemas paso a paso desafiantes, se otorgan recompensas en cada paso, en lugar de una sola recompensa al final. Básicamente, las señales de recompensa densas > escaso."

Echemos un vistazo más de cerca a los métodos y resultados del documento de OpenAI.

Dirección en papel:

Dirección del conjunto de datos:

Descripción general del método

El estudio compara la supervisión de resultados con la supervisión de procesos siguiendo un enfoque similar al de Uesato y otros (2022). Vale la pena señalar que este estudio no proporciona supervisión humana de los resultados, ya que todas las preguntas en el conjunto de datos MATH tienen respuestas verificables automáticamente. Por el contrario, no existe una manera fácil de automatizar la supervisión de procesos. El estudio se basa en etiquetadores de datos humanos para proporcionar supervisión del proceso, específicamente la corrección de cada paso en la solución que requiere la generación del modelo de etiquetado humano. El estudio llevó a cabo experimentos tanto en entornos a gran escala como a pequeña escala.

alcance

Para cada tamaño de modelo, el estudio utiliza un modelo fijo para generar todas las soluciones. Este modelo se llama generador y OpenAI dice que no mejorará el generador con aprendizaje reforzado (RL).

Modelo basica

Todos los modelos grandes se ajustan con precisión en función del modelo GPT-4. El estudio también agregó un paso adicional de preentrenamiento: ajustar todos los modelos en MathMix, un conjunto de datos que contiene alrededor de 1.500 millones de tokens relacionados con las matemáticas. Al igual que Lewkowycz y otros (2022), el equipo de investigación de OpenAI descubrió que este enfoque mejora la capacidad de razonamiento matemático del modelo.

Constructor

Para facilitar el análisis de pasos individuales, el estudio entrenó al generador para generar soluciones con pasos separados por saltos de línea. Específicamente, el estudio utiliza soluciones de generación de pocos disparos para problemas de entrenamiento de MATH, filtra las soluciones que conducen a la respuesta correcta final y ajusta el modelo base para una época en este conjunto de datos.

recopilación de datos

Para recopilar datos supervisados por procesos, el estudio muestra a los etiquetadores de datos humanos soluciones paso a paso a problemas matemáticos muestreados por generadores a gran escala. La tarea de un etiquetador de datos humano es asignar una etiqueta positiva, negativa o neutral a cada paso de la solución, como se muestra en la Figura 1 a continuación.

El estudio solo etiqueta las soluciones producidas por grandes generadores para maximizar el valor de los limitados recursos de datos artificiales. El estudio se refiere al conjunto de datos completo etiquetado paso a paso recopilado como PRM800K. El conjunto de entrenamiento PRM800K contiene etiquetas de pasos de 800K que cubren soluciones de 75K para problemas de 12K. Para minimizar el sobreajuste, el conjunto de entrenamiento PRM800K contiene datos de 4.5K problemas de prueba de MATH, y el modelo solo se evalúa en los 500 problemas de prueba restantes de MATH.

Modelo de recompensa supervisada por resultados (ORM)

Este estudio entrena un ORM siguiendo un enfoque similar al de Cobbe y otros (2021) y toma muestras de un número fijo de soluciones para cada problema del generador, luego entrena el ORM para predecir si cada solución es correcta o no. En la práctica, es una práctica común verificar automáticamente la corrección de la respuesta final, pero los etiquetadores humanos proporcionan las etiquetas en principio. En el momento de la prueba, el estudio utiliza la predicción del ORM en el token final como la puntuación total de cada solución.

Modelo de Recompensa de Supervisión de Procesos (PRM)

PRM se usa para predecir la corrección de los pasos después del último token en cada paso. Esta predicción toma la forma de tokens individuales y OpenAI maximiza la probabilidad de registro de estos tokens objetivo durante el entrenamiento. Por lo tanto, los PRM se pueden entrenar en canalizaciones de modelo de lenguaje estándar sin adaptaciones especiales.

La figura 2 muestra dos soluciones al mismo problema, la respuesta de la izquierda es correcta y la respuesta de la derecha es incorrecta. Un fondo verde indica una puntuación PRM alta y un fondo rojo indica una puntuación PRM baja. PRM puede identificar correctamente los errores en las soluciones de errores.

Al realizar la supervisión de procesos, OpenAI elige deliberadamente supervisar solo el primer paso de error, lo que hace que la comparación entre la supervisión de resultados y la supervisión de procesos sea más sencilla. Para la solución correcta, ambos métodos brindan la misma información porque cada paso es la forma correcta de resolver el problema. Para soluciones erróneas, ambos métodos revelan al menos un error y el monitoreo del proceso también revela la ubicación exacta del error.

Vigilancia masiva

OpenAI utiliza el conjunto de datos supervisados de proceso completo PRM800K para entrenar PRM. Para hacer que el punto de referencia ORM sea más poderoso, OpenAI también entrena 100 muestras para cada pregunta. Estas muestras son todas del generador, por lo que no hay una muestra superpuesta entre el ORM conjunto de entrenamiento y PRM800K.

La siguiente figura muestra una comparación de modelos de recompensas y esquemas de votación supervisados por resultados y supervisados por procesos, lo que demuestra que PRM es más efectivo que ORM y la votación mayoritaria en la búsqueda de soluciones generadas por el modelo.

Supervisión Integral de Pequeña Escala

Para poder comparar mejor la supervisión de resultados y la supervisión de procesos, lo primero que se debe tener en cuenta es que los conjuntos de entrenamiento de ORM y PRM no son directamente comparables. El conjunto de entrenamiento de PRM se construye usando aprendizaje activo y está sesgado hacia soluciones con respuestas incorrectas. orden de magnitud menor.

Monitoreo de Procesos VS Monitoreo de Resultados

First OpenAI muestra de 1 a 200 soluciones para cada problema del generador a pequeña escala. Para cada conjunto de datos, OpenAI proporciona tres formas de supervisión: supervisión de procesos de PRM_large, supervisión de resultados de PRM_large y supervisión de resultados de verificación de respuesta final.

La Figura 4a muestra que la supervisión de procesos es significativamente mejor que las otras dos formas de supervisión de resultados; la Figura 4b muestra que la supervisión de resultados con PRM_large es significativamente más efectiva que la supervisión de resultados con verificación de respuesta final.

Generalización OOD

Para medir el rendimiento de los modelos que se generalizan fuera de la distribución (OOD), OpenAI evalúa ORM y PRM a gran escala en un método de retención (hold-out) que consta de 224 problemas STEM del último AP Physics (American University Advanced Placement (AP). ), Cálculo AP, Química AP, AMC10 (entendido como una competencia de matemáticas) y exámenes AMC12, el modelo no ha visto estas preguntas. Las 100 mejores actuaciones para ORM, PRM y votación mayoritaria se informan en la Tabla 1. muestra que PRM supera tanto a ORM como a la votación mayoritaria, e implica que el rendimiento de PRM en los nuevos problemas de prueba sigue siendo el mismo.

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)