**來源:機器之心**> 對於具有挑戰性的step-by-step 數學推理問題,是在每一步給予獎勵還是在最後給予單個獎勵更有效呢? OpenAI 的最新研究給出了他們的答案。 *圖片來源:由無界AI工俱生成*現在,大語言模型迎來了「無所不能」的時代,其中在執行複雜多步推理方面的能力也有了很大提高。不過,即使是最先進的大模型也會產生邏輯錯誤,通常稱為幻覺。因此,減輕幻覺是構建對齊AGI 的關鍵一步。為了訓練更可靠的模型,目前可以選擇兩種不同的方法來訓練獎勵模型,一種是結果監督,另一種是過程監督。結果監督獎勵模型(ORMs)僅使用模型思維鏈的最終結果來訓練,而過程監督獎勵模型(PRMs)則接受思維鏈中每個步驟的獎勵。考慮到訓練可靠模型的重要性以及人工反饋的高成本,仔細比較結果監督與過程監督非常重要。雖然最近的工作已經開展了這種比較,但仍然存在很多問題。在本文中,OpenAI 进行了调研,结果发现在训练模型解决 MATH 数据集的问题时,过程监督显著优于结果监督。OpenAI 使用自己的 PRM 模型解决了 MATH 测试集中代表性子集的 78% 的问题。此外為了支持相關研究,OpenAI 還開源了PRM800K,它是一個包含800K 個步級人類反饋標籤的完整數據集,用於訓練它們的最佳獎勵模型。 如下為一個真正(True positive)的問答示例。該問題以及OpenAI 列舉的其他問題示例均來自GPT-4。這個具有挑戰性的三角學問題需要並不明顯地連續應用多個恆等式。大多數解決方案嘗試都失敗了,因為很難知道哪些恆等式實際上有用。儘管GPT-4 通常無法解決這個問題(正確率僅為0.1% ),但本文的獎勵模型正確地識別出了這個解決方案是有效的。 再看一個假正(False positive)的問答示例。在第四步中,GPT-4 錯誤地聲稱該序列每12 個項重複一次,而實際上是每10 個項重複一次。這種計數錯誤偶爾會愚弄獎勵模型。 論文作者之一、OpenAI Alignment 團隊負責人Jan Leike 表示,「使用LLM 做數學題的真正有趣結果是:監督每一步比只檢查答案更有效。」 英偉達AI 科學家Jim Fan 認為,「這篇論文的觀點很簡單:對於挑戰性的逐步問題,要在每一步給予獎勵,而不要在最後給予單個獎勵。從根本上來說,密集獎勵信號>稀疏。」 我們接下來細看OpenAI 這篇論文的方法和結果。 論文地址:數據集地址:**方法概覽**該研究按照與Uesato et al. (2022) 類似的方法對結果監督和過程監督進行了比較。值得注意的是這項研究無需人工即可提供結果監督,因為MATH 數據集中的所有問題都有可自動檢查的答案。相比之下,沒有簡單的方法來自動化過程監督。該研究依靠人類數據標記者來提供過程監督,具體來說是需要人工標記模型生成的解決方案中每個步驟的正確性。該研究在大規模和小規模兩種情況下分別進行了實驗。**範圍**對於每種模型規模,該研究都使用一個固定模型來生成所有解決方案。這個模型被稱為生成器,OpenAI 表示不會通過強化學習(RL) 來改進生成器。**基礎模型**所有大型模型均是基於GPT-4 模型進行微調得來的。該研究還添加了一個額外的預訓練步驟—— 在含有約1.5B 數學相關token 的數據集MathMix 上微調所有模型。與Lewkowycz et al. (2022) 類似,OpenAI 的研究團隊發現這種方法可以提高模型的數學推理能力。**生成器**為了更容易解析單個步驟,該研究訓練生成器在生成解決方案時,步驟之間用換行符分隔。具體來說,該研究對MATH 訓練問題使用少樣本生成解決方案,過濾出得到最終正確答案的解決方案,並在該數據集上對基礎模型進行一個epoch 的微調。**數據採集**為了收集過程監督數據,該研究向人類數據標記者展示了大規模生成器採樣的數學問題的逐步解決方案。人類數據標記者的任務是為解決方案中的每個步驟分配正面、負面或中性標籤,如下圖1 所示。 該研究只標記大型生成器生成的解決方案,以最大限度地發揮有限的人工數據資源的價值。該研究將收集到的按步驟標記的整個數據集稱為PRM800K。 PRM800K 訓練集包含800K 步驟標籤,涵蓋12K 問題的75K 解決方案。為了最大限度地減少過擬合,PRM800K 訓練集包含來自MATH 的4.5K 測試問題數據,並僅在剩餘的500 個MATH 測試問題上評估模型。**結果監督獎勵模型(ORM)**該研究按照與Cobbe et al. (2021) 類似的方法訓練ORM,並從生成器中為每個問題採樣固定數量的解決方案,然後訓練ORM 來預測每個解決方案的正確與否。實踐中,自動檢查最終答案來確定正確性是一種常用的方法,但原則上由人工標記者來提供標籤。在測試時,該研究使用ORM 在最終token 處的預測作為每個解決方案的總分。**過程監督獎勵模型(PRM)**PRM 用來預測每個步驟(step)中最後一個token 之後的步驟的正確性。這種預測採用單個token 形式,並且OpenAI 在訓練過程中最大化這些目標token 的對數似然。因此,PRM 可以在標準的語言模型pipeline 中進行訓練,無需任何特殊的適應措施。圖2 為同一個問題的2 種解決方案,左邊的答案是正確的,右邊的答案是錯誤的。綠色背景表示PRM 得分高,紅色背景表示PRM 得分低。 PRM 可以正確識別錯誤解決方案中的錯誤。 在進行過程監督時,OpenAI 有意選擇僅對第一個錯誤步驟進行監督,從而使得結果監督和過程監督之間的比較更加直接。對於正確的解決方案,兩種方法提供的信息相同,因為每一步都是正確的解題方法。對於錯誤的解決方案,兩種方法都能揭示至少存在一個錯誤,並且過程監督還揭示了該錯誤的確切位置。**大規模監督**OpenAI 使用全流程監督數據集PRM800K 來訓練PRM,為了使ORM 基準更加強大,OpenAI 還為每個問題進行了100 個樣本的訓練,這些樣本均來自生成器,由此ORM 訓練集與PRM800K 沒有重疊樣本。下圖為結果監督和過程監督獎勵模型以及投票方案的比較,結果表明在搜索模型生成的解決方案時,PRM 比ORM 和多數投票更有效。 **小規模綜合監督**為了更好的比較結果監督和過程監督,首先需要注意的是ORM 和PRM 的訓練集不具有直接可比性,PRM 訓練集是使用主動學習構建的,偏向於答案錯誤的解決方案,還比ORM 訓練集少一個數量級。**過程監督VS 結果監督**首先OpenAI 從小規模生成器中為每個問題採樣1 到200 個解決方案。對於每個數據集,OpenAI 提供三種形式的監督:來自PRM\_large 的過程監督,來自PRM\_large 的結果監督以及來自最終答案檢查的結果監督。圖4a 表明,過程監督明顯優於其他兩種形式的結果監督;圖4b 表明,使用PRM\_large 進行結果監督明顯比最終答案檢查的結果監督更有效。 **OOD 泛化**為了衡量模型在分佈外(OOD)泛化的性能,OpenAI 對大規模ORM 和PRM 在一個由224 個STEM 問題組成的held-out(留出法)上進行評估,這些問題來自最新的AP 物理(美國大學先修課程簡稱AP)、AP 微積分、AP 化學、AMC10(理解為數學競賽)和AMC12 考試,模型沒有見過這些問題。表格1 中報告了ORM、PRM 和多數投票的前100 個的最佳表現。表明,PRM 的性能優於ORM 和多數投票,同時意味著PRM 在新的測試問題上性能仍然保持不變。
OpenAI要為GPT-4解決數學問題了:獎勵模型指錯,解題水平達到新高度
來源:機器之心
現在,大語言模型迎來了「無所不能」的時代,其中在執行複雜多步推理方面的能力也有了很大提高。不過,即使是最先進的大模型也會產生邏輯錯誤,通常稱為幻覺。因此,減輕幻覺是構建對齊AGI 的關鍵一步。
為了訓練更可靠的模型,目前可以選擇兩種不同的方法來訓練獎勵模型,一種是結果監督,另一種是過程監督。結果監督獎勵模型(ORMs)僅使用模型思維鏈的最終結果來訓練,而過程監督獎勵模型(PRMs)則接受思維鏈中每個步驟的獎勵。
考慮到訓練可靠模型的重要性以及人工反饋的高成本,仔細比較結果監督與過程監督非常重要。雖然最近的工作已經開展了這種比較,但仍然存在很多問題。
在本文中,OpenAI 进行了调研,结果发现在训练模型解决 MATH 数据集的问题时,过程监督显著优于结果监督。OpenAI 使用自己的 PRM 模型解决了 MATH 测试集中代表性子集的 78% 的问题。
此外為了支持相關研究,OpenAI 還開源了PRM800K,它是一個包含800K 個步級人類反饋標籤的完整數據集,用於訓練它們的最佳獎勵模型。
數據集地址:
方法概覽
該研究按照與Uesato et al. (2022) 類似的方法對結果監督和過程監督進行了比較。值得注意的是這項研究無需人工即可提供結果監督,因為MATH 數據集中的所有問題都有可自動檢查的答案。相比之下,沒有簡單的方法來自動化過程監督。該研究依靠人類數據標記者來提供過程監督,具體來說是需要人工標記模型生成的解決方案中每個步驟的正確性。該研究在大規模和小規模兩種情況下分別進行了實驗。
範圍
對於每種模型規模,該研究都使用一個固定模型來生成所有解決方案。這個模型被稱為生成器,OpenAI 表示不會通過強化學習(RL) 來改進生成器。
基礎模型
所有大型模型均是基於GPT-4 模型進行微調得來的。該研究還添加了一個額外的預訓練步驟—— 在含有約1.5B 數學相關token 的數據集MathMix 上微調所有模型。與Lewkowycz et al. (2022) 類似,OpenAI 的研究團隊發現這種方法可以提高模型的數學推理能力。
生成器
為了更容易解析單個步驟,該研究訓練生成器在生成解決方案時,步驟之間用換行符分隔。具體來說,該研究對MATH 訓練問題使用少樣本生成解決方案,過濾出得到最終正確答案的解決方案,並在該數據集上對基礎模型進行一個epoch 的微調。
數據採集
為了收集過程監督數據,該研究向人類數據標記者展示了大規模生成器採樣的數學問題的逐步解決方案。人類數據標記者的任務是為解決方案中的每個步驟分配正面、負面或中性標籤,如下圖1 所示。
結果監督獎勵模型(ORM)
該研究按照與Cobbe et al. (2021) 類似的方法訓練ORM,並從生成器中為每個問題採樣固定數量的解決方案,然後訓練ORM 來預測每個解決方案的正確與否。實踐中,自動檢查最終答案來確定正確性是一種常用的方法,但原則上由人工標記者來提供標籤。在測試時,該研究使用ORM 在最終token 處的預測作為每個解決方案的總分。
過程監督獎勵模型(PRM)
PRM 用來預測每個步驟(step)中最後一個token 之後的步驟的正確性。這種預測採用單個token 形式,並且OpenAI 在訓練過程中最大化這些目標token 的對數似然。因此,PRM 可以在標準的語言模型pipeline 中進行訓練,無需任何特殊的適應措施。
圖2 為同一個問題的2 種解決方案,左邊的答案是正確的,右邊的答案是錯誤的。綠色背景表示PRM 得分高,紅色背景表示PRM 得分低。 PRM 可以正確識別錯誤解決方案中的錯誤。
大規模監督
OpenAI 使用全流程監督數據集PRM800K 來訓練PRM,為了使ORM 基準更加強大,OpenAI 還為每個問題進行了100 個樣本的訓練,這些樣本均來自生成器,由此ORM 訓練集與PRM800K 沒有重疊樣本。
下圖為結果監督和過程監督獎勵模型以及投票方案的比較,結果表明在搜索模型生成的解決方案時,PRM 比ORM 和多數投票更有效。
為了更好的比較結果監督和過程監督,首先需要注意的是ORM 和PRM 的訓練集不具有直接可比性,PRM 訓練集是使用主動學習構建的,偏向於答案錯誤的解決方案,還比ORM 訓練集少一個數量級。
過程監督VS 結果監督
首先OpenAI 從小規模生成器中為每個問題採樣1 到200 個解決方案。對於每個數據集,OpenAI 提供三種形式的監督:來自PRM_large 的過程監督,來自PRM_large 的結果監督以及來自最終答案檢查的結果監督。
圖4a 表明,過程監督明顯優於其他兩種形式的結果監督;圖4b 表明,使用PRM_large 進行結果監督明顯比最終答案檢查的結果監督更有效。
為了衡量模型在分佈外(OOD)泛化的性能,OpenAI 對大規模ORM 和PRM 在一個由224 個STEM 問題組成的held-out(留出法)上進行評估,這些問題來自最新的AP 物理(美國大學先修課程簡稱AP)、AP 微積分、AP 化學、AMC10(理解為數學競賽)和AMC12 考試,模型沒有見過這些問題。表格1 中報告了ORM、PRM 和多數投票的前100 個的最佳表現。表明,PRM 的性能優於ORM 和多數投票,同時意味著PRM 在新的測試問題上性能仍然保持不變。