Для складних покрокових завдань з математичних міркувань ефективніше давати винагороду на кожному кроці чи одну винагороду в кінці? Нове дослідження OpenAI має відповідь.
Джерело зображення: створено інструментом Unbounded AI
Тепер великі мовні моделі відкривають еру «всемогутності», в якій здатність виконувати складні багатоетапні міркування також значно вдосконалена. Проте навіть великі, найсучасніші моделі можуть породжувати логічні помилки, які часто називають галюцинаціями. Тому полегшення галюцинацій є вирішальним кроком у створенні вирівняного AGI.
Щоб навчити більш надійну модель, наразі існує два різні методи навчання моделі винагороди: один – це нагляд за результатами, а інший – нагляд за процесом. Моделі винагороди з контрольованим результатом (ORM) навчаються з використанням лише кінцевого результату ланцюжка мислення моделі, тоді як моделі винагороди з контрольованим процесом (PRM) отримують винагороду за кожен крок у ланцюжку мислення.
Враховуючи важливість навчання надійних моделей і високу вартість зворотного зв’язку людини, важливо ретельно порівнювати нагляд за результатами з наглядом за процесом. Незважаючи на те, що нещодавно проведено це порівняння, залишається багато питань.
У цій статті OpenAI досліджує та виявляє, що нагляд за процесом значно перевершує нагляд за результатами під час навчання моделей розв’язувати проблеми на наборі даних MATH. OpenAI розв’язав 78% задач у репрезентативній підмножині набору тестів MATH за допомогою власної моделі PRM.
Крім того, для підтримки пов’язаних досліджень OpenAI також відкриває PRM800K, повний набір даних, що містить 800 тис. покрокових міток зворотного зв’язку людини, для навчання оптимальних моделей винагороди.
Нижче наведено приклад справжнього (істинно позитивного) запитання та відповіді. Ця проблема та інші приклади проблем, наведені OpenAI, взяті з GPT-4. Ця складна задача тригонометрії вимагає неочевидного застосування кількох тотожностей послідовно. Більшість спроб розв’язання зазнають невдачі, оскільки важко визначити, які ідентифікатори насправді корисні. Хоча GPT-4 зазвичай не вирішує цю проблему (тільки 0,1% правильних), наша модель винагороди правильно визначає, що це рішення є ефективним.
Давайте розглянемо інший приклад відповіді на хибнопозитивне запитання. На четвертому кроці GPT-4 помилково стверджував, що послідовність повторюється кожні 12 членів, хоча насправді вона повторювалася кожні 10 членів. Ця помилка підрахунку іноді вводить в оману моделі винагороди.
«Справді цікавим результатом використання LLM для вирішення математичних завдань є те, що контролювати кожен крок ефективніше, ніж просто перевіряти відповідь», — сказав Ян Лейке, один із авторів статті та керівник команди OpenAI Alignment.
За словами Джима Фана, науковця зі штучного інтелекту в Nvidia, «суть цієї статті проста: для складних покрокових завдань винагорода дається на кожному кроці, а не одна винагорода в кінці. По суті, щільні сигнали винагороди > рідко."
Давайте детальніше розглянемо методи та результати роботи OpenAI.
Адреса паперу:
Адреса набору даних:
Огляд методу
Дослідження порівнює нагляд за результатами з наглядом за процесом, застосовуючи подібний підхід до Уесато та ін. (2022). Варто зазначити, що це дослідження не передбачає людського контролю за результатами, оскільки на всі запитання в наборі даних MATH є відповіді, які можна перевірити автоматично. Навпаки, немає простого способу автоматизувати нагляд за процесом. Дослідження покладається на людей, які створюють мітки, щоб забезпечити нагляд за процесом, зокрема правильність кожного кроку в рішенні, яке вимагає створення моделі міток людиною. Дослідження проводило експерименти як у великомасштабних, так і в малих умовах.
обсяг
Для кожного розміру моделі дослідження використовує фіксовану модель для створення всіх рішень. Ця модель називається генератором, і OpenAI каже, що вона не покращить генератор за допомогою навчання з підкріпленням (RL).
Базова модель
Всі великі моделі налаштовані на основі моделі GPT-4. Дослідження також додало додатковий етап попереднього навчання — точне налаштування всіх моделей на MathMix, наборі даних, що містить близько 1,5 млрд токенів, пов’язаних з математикою. Подібно до Lewkowycz та ін. (2022), дослідницька група OpenAI виявила, що цей підхід покращує здатність моделі до математичних міркувань.
Будівельник
Щоб полегшити розбір окремих кроків, у дослідженні генератор навчили генерувати рішення з кроками, розділеними символами нового рядка. Зокрема, у дослідженні використовуються рішення для генерації декількох етапів для навчальних проблем МАТЕМАТИКИ, відфільтровуються рішення, які призводять до остаточної правильної відповіді, і точно налаштовується базова модель для однієї епохи на цьому наборі даних.
збір даних
Щоб зібрати дані під контролем процесу, дослідження показує людям, що маркують дані, покрокові рішення математичних проблем, які вибираються великомасштабними генераторами. Завдання людини, що розміщує дані, полягає в тому, щоб призначити позитивну, негативну або нейтральну мітку кожному етапу вирішення, як показано на малюнку 1 нижче.
Дослідження позначає лише рішення, створені великими генераторами, щоб максимізувати цінність обмежених штучних ресурсів даних. Дослідження посилається на зібраний поетапно позначений весь набір даних як PRM800K. Навчальний набір PRM800K містить 800 тисяч кроків, які охоплюють 75 тисяч рішень для 12 тисяч проблем. Щоб мінімізувати переобладнання, навчальний набір PRM800K містить дані з 4,5 тисяч тестових завдань MATH, а модель оцінюється лише для решти 500 тестових завдань MATH.
Модель контрольованої винагороди (ORM)
У цьому дослідженні ORM навчається за підходом, подібним до Коббе та ін. (2021), і вибирає фіксовану кількість рішень для кожної проблеми з генератора, а потім навчає ORM передбачати, чи кожне рішення є правильним чи ні. На практиці це звичайна практика автоматично перевіряти остаточну відповідь на правильність, але люди, які займаються мітками, в принципі надають мітки. Під час тестування дослідження використовує прогноз ORM на кінцевому маркері як загальну оцінку для кожного рішення.
Модель нагляду за процесом (PRM)
PRM використовується для прогнозування правильності кроків після останнього токена на кожному кроці. Це передбачення приймає форму окремих токенів, і OpenAI максимізує логарифмічну ймовірність цих цільових токенів під час навчання. Таким чином, PRMs можна навчити стандартній мовній моделі конвеєрів без будь-яких спеціальних адаптацій.
На малюнку 2 показано два розв’язки однієї задачі, відповідь ліворуч правильна, а справа неправильна. Зелений фон вказує на високий бал PRM, а червоний фон вказує на низький бал PRM. PRM може правильно визначити помилки в рішеннях помилок.
Виконуючи нагляд за процесом, OpenAI свідомо обирає контролювати лише перший крок помилки, що робить порівняння між наглядом за результатами та наглядом за процесом більш простим. Для правильного вирішення обидва методи надають однакову інформацію, оскільки кожен крок є правильним способом вирішення проблеми. Для помилкових рішень обидва методи виявляють принаймні одну помилку, а моніторинг процесу також виявляє точне місце помилки.
Масове стеження
OpenAI використовує контрольований набір даних повного процесу PRM800K для навчання PRM. Щоб зробити тест ORM потужнішим, OpenAI також навчає 100 зразків для кожного запитання. Усі ці зразки надходять із генератора, тому вибірки ORM не перекриваються. навчальний набір і PRM800K .
На малюнку нижче показано порівняння моделей винагороди з контрольованим результатом і процесом, а також схем голосування, показуючи, що PRM є більш ефективним, ніж ORM і більшість голосів у пошуку рішень, створених моделлю.
Малий комплексний нагляд
Для кращого порівняння нагляду за результатами та нагляду за процесом перше, на що слід звернути увагу, це те, що навчальні набори ORM і PRM не порівнюються безпосередньо. Навчальний набір PRM створено з використанням активного навчання та має упередження щодо рішень із неправильними відповідями. на порядок менше.
Моніторинг процесу проти моніторингу результату
First OpenAI відбирає від 1 до 200 рішень для кожної проблеми з генератора малого масштабу. Для кожного набору даних OpenAI забезпечує три форми нагляду: нагляд за процесом від PRM_large, нагляд за результатами з PRM_large і нагляд за результатами перевірки остаточної відповіді.
На рисунку 4а показано, що нагляд за процесом є значно кращим, ніж інші дві форми нагляду за результатами; на малюнку 4b показано, що нагляд за результатами з PRM_large значно ефективніший, ніж нагляд за результатами з перевіркою остаточної відповіді.
Узагальнення OOD
Щоб виміряти продуктивність моделей, що узагальнюють поза розповсюдженням (OOD), OpenAI оцінює великомасштабні ORM і PRM на утримуваному (холд-аут методі), що складається з 224 задач STEM з останньої фізики AP (Американський університет Advanced Placement (AP). ), іспити AP Calculus, AP Chemistry, AMC10 (розуміється як змагання з математики) і AMC12, модель не бачила цих запитань. 100 найкращих показників для ORM, PRM та мажоритарного голосування наведено в таблиці 1. показує, що PRM перевершує як ORM, так і мажоритарне голосування, і означає, що продуктивність PRM у нових тестових задачах залишається незмінною.
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
OpenAI збирається вирішувати математичні задачі для GPT-4: модель винагороди неправильна, а рівень вирішення задач вийшов на новий рівень
Джерело: Heart of the Machine
Тепер великі мовні моделі відкривають еру «всемогутності», в якій здатність виконувати складні багатоетапні міркування також значно вдосконалена. Проте навіть великі, найсучасніші моделі можуть породжувати логічні помилки, які часто називають галюцинаціями. Тому полегшення галюцинацій є вирішальним кроком у створенні вирівняного AGI.
Щоб навчити більш надійну модель, наразі існує два різні методи навчання моделі винагороди: один – це нагляд за результатами, а інший – нагляд за процесом. Моделі винагороди з контрольованим результатом (ORM) навчаються з використанням лише кінцевого результату ланцюжка мислення моделі, тоді як моделі винагороди з контрольованим процесом (PRM) отримують винагороду за кожен крок у ланцюжку мислення.
Враховуючи важливість навчання надійних моделей і високу вартість зворотного зв’язку людини, важливо ретельно порівнювати нагляд за результатами з наглядом за процесом. Незважаючи на те, що нещодавно проведено це порівняння, залишається багато питань.
У цій статті OpenAI досліджує та виявляє, що нагляд за процесом значно перевершує нагляд за результатами під час навчання моделей розв’язувати проблеми на наборі даних MATH. OpenAI розв’язав 78% задач у репрезентативній підмножині набору тестів MATH за допомогою власної моделі PRM.
Крім того, для підтримки пов’язаних досліджень OpenAI також відкриває PRM800K, повний набір даних, що містить 800 тис. покрокових міток зворотного зв’язку людини, для навчання оптимальних моделей винагороди.
Адреса набору даних:
Огляд методу
Дослідження порівнює нагляд за результатами з наглядом за процесом, застосовуючи подібний підхід до Уесато та ін. (2022). Варто зазначити, що це дослідження не передбачає людського контролю за результатами, оскільки на всі запитання в наборі даних MATH є відповіді, які можна перевірити автоматично. Навпаки, немає простого способу автоматизувати нагляд за процесом. Дослідження покладається на людей, які створюють мітки, щоб забезпечити нагляд за процесом, зокрема правильність кожного кроку в рішенні, яке вимагає створення моделі міток людиною. Дослідження проводило експерименти як у великомасштабних, так і в малих умовах.
обсяг
Для кожного розміру моделі дослідження використовує фіксовану модель для створення всіх рішень. Ця модель називається генератором, і OpenAI каже, що вона не покращить генератор за допомогою навчання з підкріпленням (RL).
Базова модель
Всі великі моделі налаштовані на основі моделі GPT-4. Дослідження також додало додатковий етап попереднього навчання — точне налаштування всіх моделей на MathMix, наборі даних, що містить близько 1,5 млрд токенів, пов’язаних з математикою. Подібно до Lewkowycz та ін. (2022), дослідницька група OpenAI виявила, що цей підхід покращує здатність моделі до математичних міркувань.
Будівельник
Щоб полегшити розбір окремих кроків, у дослідженні генератор навчили генерувати рішення з кроками, розділеними символами нового рядка. Зокрема, у дослідженні використовуються рішення для генерації декількох етапів для навчальних проблем МАТЕМАТИКИ, відфільтровуються рішення, які призводять до остаточної правильної відповіді, і точно налаштовується базова модель для однієї епохи на цьому наборі даних.
збір даних
Щоб зібрати дані під контролем процесу, дослідження показує людям, що маркують дані, покрокові рішення математичних проблем, які вибираються великомасштабними генераторами. Завдання людини, що розміщує дані, полягає в тому, щоб призначити позитивну, негативну або нейтральну мітку кожному етапу вирішення, як показано на малюнку 1 нижче.
Модель контрольованої винагороди (ORM)
У цьому дослідженні ORM навчається за підходом, подібним до Коббе та ін. (2021), і вибирає фіксовану кількість рішень для кожної проблеми з генератора, а потім навчає ORM передбачати, чи кожне рішення є правильним чи ні. На практиці це звичайна практика автоматично перевіряти остаточну відповідь на правильність, але люди, які займаються мітками, в принципі надають мітки. Під час тестування дослідження використовує прогноз ORM на кінцевому маркері як загальну оцінку для кожного рішення.
Модель нагляду за процесом (PRM)
PRM використовується для прогнозування правильності кроків після останнього токена на кожному кроці. Це передбачення приймає форму окремих токенів, і OpenAI максимізує логарифмічну ймовірність цих цільових токенів під час навчання. Таким чином, PRMs можна навчити стандартній мовній моделі конвеєрів без будь-яких спеціальних адаптацій.
На малюнку 2 показано два розв’язки однієї задачі, відповідь ліворуч правильна, а справа неправильна. Зелений фон вказує на високий бал PRM, а червоний фон вказує на низький бал PRM. PRM може правильно визначити помилки в рішеннях помилок.
Масове стеження
OpenAI використовує контрольований набір даних повного процесу PRM800K для навчання PRM. Щоб зробити тест ORM потужнішим, OpenAI також навчає 100 зразків для кожного запитання. Усі ці зразки надходять із генератора, тому вибірки ORM не перекриваються. навчальний набір і PRM800K .
На малюнку нижче показано порівняння моделей винагороди з контрольованим результатом і процесом, а також схем голосування, показуючи, що PRM є більш ефективним, ніж ORM і більшість голосів у пошуку рішень, створених моделлю.
Для кращого порівняння нагляду за результатами та нагляду за процесом перше, на що слід звернути увагу, це те, що навчальні набори ORM і PRM не порівнюються безпосередньо. Навчальний набір PRM створено з використанням активного навчання та має упередження щодо рішень із неправильними відповідями. на порядок менше.
Моніторинг процесу проти моніторингу результату
First OpenAI відбирає від 1 до 200 рішень для кожної проблеми з генератора малого масштабу. Для кожного набору даних OpenAI забезпечує три форми нагляду: нагляд за процесом від PRM_large, нагляд за результатами з PRM_large і нагляд за результатами перевірки остаточної відповіді.
На рисунку 4а показано, що нагляд за процесом є значно кращим, ніж інші дві форми нагляду за результатами; на малюнку 4b показано, що нагляд за результатами з PRM_large значно ефективніший, ніж нагляд за результатами з перевіркою остаточної відповіді.
Щоб виміряти продуктивність моделей, що узагальнюють поза розповсюдженням (OOD), OpenAI оцінює великомасштабні ORM і PRM на утримуваному (холд-аут методі), що складається з 224 задач STEM з останньої фізики AP (Американський університет Advanced Placement (AP). ), іспити AP Calculus, AP Chemistry, AMC10 (розуміється як змагання з математики) і AMC12, модель не бачила цих запитань. 100 найкращих показників для ORM, PRM та мажоритарного голосування наведено в таблиці 1. показує, що PRM перевершує як ORM, так і мажоритарне голосування, і означає, що продуктивність PRM у нових тестових задачах залишається незмінною.