Đối với các bài toán suy luận từng bước đầy thách thức, việc trao phần thưởng ở mỗi bước sẽ hiệu quả hơn hay một phần thưởng duy nhất ở cuối? Nghiên cứu mới từ OpenAI đã có câu trả lời.
Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI
Giờ đây, các mô hình ngôn ngữ lớn mở ra kỷ nguyên “toàn năng”, trong đó khả năng thực hiện lập luận nhiều bước phức tạp cũng đã được cải thiện rất nhiều. Tuy nhiên, ngay cả những mô hình lớn, hiện đại nhất cũng có thể tạo ra các lỗi logic, thường được gọi là ảo giác. Do đó, giảm ảo giác là một bước quan trọng trong việc xây dựng AGI phù hợp.
Để đào tạo một mô hình đáng tin cậy hơn, hiện có hai phương pháp khác nhau để lựa chọn để đào tạo mô hình khen thưởng, một là giám sát kết quả và hai là giám sát quá trình. Các mô hình phần thưởng được giám sát theo kết quả (ORM) được đào tạo chỉ sử dụng kết quả cuối cùng của chuỗi suy nghĩ của mô hình, trong khi các mô hình phần thưởng được giám sát theo quy trình (PRM) nhận được phần thưởng cho từng bước trong chuỗi suy nghĩ.
Do tầm quan trọng của việc đào tạo các mô hình đáng tin cậy và chi phí cao cho phản hồi của con người, điều quan trọng là phải so sánh cẩn thận giữa giám sát kết quả với giám sát quá trình. Trong khi công việc gần đây đã thực hiện so sánh này, vẫn còn nhiều câu hỏi.
Trong bài báo này, OpenAI điều tra và nhận thấy rằng giám sát quy trình vượt trội hơn đáng kể so với giám sát kết quả khi đào tạo các mô hình để giải các bài toán trên tập dữ liệu MATH. OpenAI đã giải quyết được 78% số bài toán trên một tập hợp con đại diện của bộ kiểm tra MATH bằng mô hình PRM của chính nó.
Ngoài ra, để hỗ trợ nghiên cứu liên quan, OpenAI cũng mã nguồn mở PRM800K, một bộ dữ liệu hoàn chỉnh chứa 800K nhãn phản hồi của con người ở cấp độ bước, để đào tạo các mô hình phần thưởng tối ưu của họ.
Sau đây là một ví dụ về câu hỏi và câu trả lời thực tế (True positive). Sự cố này và các ví dụ sự cố khác được OpenAI trích dẫn là từ GPT-4. Vấn đề lượng giác đầy thách thức này đòi hỏi phải áp dụng liên tiếp nhiều đồng nhất thức một cách rõ ràng. Hầu hết các nỗ lực giải pháp đều thất bại vì khó biết danh tính nào thực sự hữu ích. Mặc dù GPT-4 thường không giải quyết được vấn đề này (chỉ đúng 0,1%), nhưng mô hình phần thưởng của chúng tôi xác định chính xác rằng giải pháp này có hiệu quả.
Hãy xem một ví dụ khác về cách trả lời câu hỏi tích cực Sai. Ở bước thứ tư, GPT-4 đã tuyên bố sai rằng trình tự lặp lại sau mỗi 12 số hạng, trong khi thực tế nó lặp lại sau mỗi 10 số hạng. Lỗi đếm này đôi khi đánh lừa các mô hình phần thưởng.
Jan Leike, một trong những tác giả của bài báo và là người đứng đầu nhóm OpenAI Alignment, cho biết: “Kết quả thực sự thú vị của việc sử dụng LLM để giải các bài toán là việc giám sát từng bước sẽ hiệu quả hơn là chỉ kiểm tra câu trả lời”.
Theo Jim Fan, một nhà khoa học AI tại Nvidia, "điểm của bài viết này rất đơn giản: Đối với các vấn đề thách thức theo từng bước, phần thưởng được đưa ra ở mỗi bước, thay vì một phần thưởng duy nhất ở cuối. Về cơ bản, các tín hiệu phần thưởng dày đặc > thưa thớt."
Chúng ta hãy xem xét kỹ hơn các phương pháp và kết quả của bài báo OpenAI.
Địa chỉ giấy tờ:
Địa chỉ tập dữ liệu:
Tổng quan về phương pháp
Nghiên cứu so sánh giám sát kết quả với giám sát quá trình theo cách tiếp cận tương tự như của Uesato và cộng sự (2022). Điều đáng chú ý là nghiên cứu này không cung cấp sự giám sát của con người đối với kết quả, vì tất cả các câu hỏi trong bộ dữ liệu MATH đều có câu trả lời tự động kiểm tra được. Ngược lại, không có cách nào dễ dàng để tự động hóa việc giám sát quy trình. Nghiên cứu dựa vào các công cụ ghi nhãn dữ liệu của con người để giám sát quy trình, cụ thể là tính chính xác của từng bước trong giải pháp yêu cầu tạo mô hình ghi nhãn của con người. Nghiên cứu đã tiến hành các thí nghiệm ở cả môi trường quy mô lớn và quy mô nhỏ.
phạm vi
Đối với mỗi kích thước mô hình, nghiên cứu sử dụng một mô hình cố định để tạo ra tất cả các giải pháp. Mô hình này được gọi là trình tạo và OpenAI cho biết nó sẽ không cải thiện trình tạo bằng cách học tăng cường (RL).
Mô hình cơ bản
Tất cả các mô hình lớn đều được tinh chỉnh dựa trên mô hình GPT-4. Nghiên cứu cũng bổ sung thêm một bước đào tạo trước — tinh chỉnh tất cả các mô hình trên MathMix, một bộ dữ liệu chứa khoảng 1,5 tỷ mã thông báo liên quan đến toán học. Tương tự như Lewkowycz và cộng sự (2022), nhóm nghiên cứu của OpenAI nhận thấy rằng cách tiếp cận này cải thiện khả năng suy luận toán học của mô hình.
Người xây dựng
Để làm cho việc phân tích các bước riêng lẻ trở nên dễ dàng hơn, nghiên cứu đã đào tạo trình tạo để tạo ra các giải pháp với các bước được phân tách bằng dòng mới. Cụ thể, nghiên cứu sử dụng các giải pháp tạo ra một vài lần cho các vấn đề đào tạo TOÁN, lọc ra các giải pháp dẫn đến câu trả lời đúng cuối cùng và tinh chỉnh mô hình cơ sở cho một kỷ nguyên trên bộ dữ liệu này.
thu thập dữ liệu
Để thu thập dữ liệu được giám sát theo quy trình, nghiên cứu chỉ ra các giải pháp từng bước cho các nhà dán nhãn dữ liệu con người cho các vấn đề toán học được lấy mẫu bởi các trình tạo quy mô lớn. Nhiệm vụ của người gắn nhãn dữ liệu con người là gán nhãn tích cực, tiêu cực hoặc trung tính cho từng bước trong giải pháp, như minh họa trong Hình 1 bên dưới.
Nghiên cứu chỉ dán nhãn các giải pháp được sản xuất bởi các máy phát điện lớn để tối đa hóa giá trị của các nguồn dữ liệu nhân tạo hạn chế. Nghiên cứu đề cập đến toàn bộ tập dữ liệu được dán nhãn từng bước được thu thập là PRM800K. Bộ đào tạo PRM800K chứa 800K nhãn bước bao gồm 75K giải pháp cho 12K vấn đề. Để giảm thiểu việc trang bị quá mức, tập huấn luyện PRM800K chứa dữ liệu từ 4,5 nghìn bài toán kiểm tra của MATH và mô hình chỉ được đánh giá trên 500 bài toán kiểm tra còn lại của MATH.
Mô hình Phần thưởng Giám sát Kết quả (ORM)
Nghiên cứu này đào tạo ORM theo cách tiếp cận tương tự như Cobbe và cộng sự (2021) và lấy mẫu một số giải pháp cố định cho từng vấn đề từ trình tạo, sau đó đào tạo ORM để dự đoán xem mỗi giải pháp có đúng hay không. Trên thực tế, thông thường người ta thường tự động kiểm tra tính chính xác của câu trả lời cuối cùng, nhưng về nguyên tắc, người dán nhãn cung cấp nhãn. Tại thời điểm thử nghiệm, nghiên cứu sử dụng dự đoán của ORM ở mã thông báo cuối cùng làm tổng điểm cho từng giải pháp.
Mô hình Khen thưởng Giám sát Quy trình (PRM)
PRM được sử dụng để dự đoán tính chính xác của các bước sau mã thông báo cuối cùng trong mỗi bước. Dự đoán này có dạng mã thông báo riêng lẻ và OpenAI tối đa hóa khả năng đăng nhập của các mã thông báo mục tiêu này trong quá trình đào tạo. Do đó, các PRM có thể được đào tạo trong các quy trình mô hình ngôn ngữ tiêu chuẩn mà không cần bất kỳ điều chỉnh đặc biệt nào.
Hình 2 cho thấy hai giải pháp cho cùng một vấn đề, câu trả lời bên trái là đúng và câu trả lời bên phải là sai. Nền xanh biểu thị điểm PRM cao và nền đỏ biểu thị điểm PRM thấp. PRM có thể xác định chính xác lỗi trong các giải pháp lỗi.
Khi thực hiện giám sát quy trình, OpenAI cố tình chọn chỉ giám sát bước lỗi đầu tiên, giúp việc so sánh giữa giám sát kết quả và giám sát quy trình trở nên đơn giản hơn. Đối với giải pháp chính xác, cả hai phương pháp đều cung cấp thông tin giống nhau vì mỗi bước là cách chính xác để giải quyết vấn đề. Đối với các giải pháp sai sót, cả hai phương pháp đều cho thấy ít nhất một lỗi và quá trình giám sát cũng cho thấy vị trí chính xác của lỗi.
Giám sát hàng loạt
OpenAI sử dụng bộ dữ liệu được giám sát toàn bộ quy trình PRM800K để đào tạo PRM. Để làm cho điểm chuẩn ORM mạnh mẽ hơn, OpenAI cũng đào tạo 100 mẫu cho mỗi câu hỏi. Tất cả các mẫu này đều từ trình tạo, vì vậy không có mẫu trùng lặp giữa ORM bộ đào tạo và PRM800K .
Hình dưới đây cho thấy sự so sánh giữa các mô hình phần thưởng được giám sát theo kết quả và được giám sát theo quy trình cũng như các chương trình biểu quyết, cho thấy PRM hiệu quả hơn ORM và biểu quyết theo đa số trong việc tìm kiếm các giải pháp do mô hình tạo ra.
Giám sát toàn diện quy mô nhỏ
Để so sánh tốt hơn giữa giám sát kết quả và giám sát quá trình, điều đầu tiên cần lưu ý là tập huấn luyện của ORM và PRM không thể so sánh trực tiếp. Tập huấn luyện PRM được xây dựng bằng cách học tích cực và thiên về các giải pháp có câu trả lời sai. thứ tự độ lớn ít hơn.
Giám sát quy trình VS Giám sát kết quả
OpenAI đầu tiên lấy mẫu từ 1 đến 200 giải pháp cho từng vấn đề từ trình tạo quy mô nhỏ. Đối với mỗi tập dữ liệu, OpenAI cung cấp ba hình thức giám sát: giám sát quy trình từ PRM_large, giám sát kết quả từ PRM_large và giám sát kết quả từ kiểm tra câu trả lời cuối cùng.
Hình 4a cho thấy rằng giám sát quy trình tốt hơn đáng kể so với hai hình thức giám sát kết quả còn lại; Hình 4b cho thấy rằng giám sát kết quả bằng PRM_large hiệu quả hơn đáng kể so với giám sát kết quả bằng kiểm tra câu trả lời cuối cùng.
Tổng quát hóa OOD
Để đo lường hiệu suất của các mô hình tổng quát hóa ngoài phân phối (OOD), OpenAI đánh giá ORM và PRM quy mô lớn trên phương pháp hold-out (phương pháp hold-out) bao gồm 224 bài toán STEM từ AP Vật lý mới nhất (American University Advanced Placement (AP) ), kỳ thi AP Calculus, AP Chemistry, AMC10 (được hiểu là thi giải toán) và AMC12, mẫu chưa thấy các câu hỏi này. 100 hiệu suất tốt nhất hàng đầu cho ORM, PRM và biểu quyết đa số được báo cáo trong Bảng 1. cho thấy rằng PRM vượt trội hơn cả ORM và bỏ phiếu theo đa số, và ngụ ý rằng hiệu suất của PRM đối với các vấn đề thử nghiệm mới vẫn như cũ.
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
OpenAI sắp giải toán cho GPT-4: mô hình khen thưởng đã sai, trình độ giải toán đã lên một tầm cao mới
Nguồn: Trái tim của cỗ máy
Giờ đây, các mô hình ngôn ngữ lớn mở ra kỷ nguyên “toàn năng”, trong đó khả năng thực hiện lập luận nhiều bước phức tạp cũng đã được cải thiện rất nhiều. Tuy nhiên, ngay cả những mô hình lớn, hiện đại nhất cũng có thể tạo ra các lỗi logic, thường được gọi là ảo giác. Do đó, giảm ảo giác là một bước quan trọng trong việc xây dựng AGI phù hợp.
Để đào tạo một mô hình đáng tin cậy hơn, hiện có hai phương pháp khác nhau để lựa chọn để đào tạo mô hình khen thưởng, một là giám sát kết quả và hai là giám sát quá trình. Các mô hình phần thưởng được giám sát theo kết quả (ORM) được đào tạo chỉ sử dụng kết quả cuối cùng của chuỗi suy nghĩ của mô hình, trong khi các mô hình phần thưởng được giám sát theo quy trình (PRM) nhận được phần thưởng cho từng bước trong chuỗi suy nghĩ.
Do tầm quan trọng của việc đào tạo các mô hình đáng tin cậy và chi phí cao cho phản hồi của con người, điều quan trọng là phải so sánh cẩn thận giữa giám sát kết quả với giám sát quá trình. Trong khi công việc gần đây đã thực hiện so sánh này, vẫn còn nhiều câu hỏi.
Trong bài báo này, OpenAI điều tra và nhận thấy rằng giám sát quy trình vượt trội hơn đáng kể so với giám sát kết quả khi đào tạo các mô hình để giải các bài toán trên tập dữ liệu MATH. OpenAI đã giải quyết được 78% số bài toán trên một tập hợp con đại diện của bộ kiểm tra MATH bằng mô hình PRM của chính nó.
Ngoài ra, để hỗ trợ nghiên cứu liên quan, OpenAI cũng mã nguồn mở PRM800K, một bộ dữ liệu hoàn chỉnh chứa 800K nhãn phản hồi của con người ở cấp độ bước, để đào tạo các mô hình phần thưởng tối ưu của họ.
Địa chỉ tập dữ liệu:
Tổng quan về phương pháp
Nghiên cứu so sánh giám sát kết quả với giám sát quá trình theo cách tiếp cận tương tự như của Uesato và cộng sự (2022). Điều đáng chú ý là nghiên cứu này không cung cấp sự giám sát của con người đối với kết quả, vì tất cả các câu hỏi trong bộ dữ liệu MATH đều có câu trả lời tự động kiểm tra được. Ngược lại, không có cách nào dễ dàng để tự động hóa việc giám sát quy trình. Nghiên cứu dựa vào các công cụ ghi nhãn dữ liệu của con người để giám sát quy trình, cụ thể là tính chính xác của từng bước trong giải pháp yêu cầu tạo mô hình ghi nhãn của con người. Nghiên cứu đã tiến hành các thí nghiệm ở cả môi trường quy mô lớn và quy mô nhỏ.
phạm vi
Đối với mỗi kích thước mô hình, nghiên cứu sử dụng một mô hình cố định để tạo ra tất cả các giải pháp. Mô hình này được gọi là trình tạo và OpenAI cho biết nó sẽ không cải thiện trình tạo bằng cách học tăng cường (RL).
Mô hình cơ bản
Tất cả các mô hình lớn đều được tinh chỉnh dựa trên mô hình GPT-4. Nghiên cứu cũng bổ sung thêm một bước đào tạo trước — tinh chỉnh tất cả các mô hình trên MathMix, một bộ dữ liệu chứa khoảng 1,5 tỷ mã thông báo liên quan đến toán học. Tương tự như Lewkowycz và cộng sự (2022), nhóm nghiên cứu của OpenAI nhận thấy rằng cách tiếp cận này cải thiện khả năng suy luận toán học của mô hình.
Người xây dựng
Để làm cho việc phân tích các bước riêng lẻ trở nên dễ dàng hơn, nghiên cứu đã đào tạo trình tạo để tạo ra các giải pháp với các bước được phân tách bằng dòng mới. Cụ thể, nghiên cứu sử dụng các giải pháp tạo ra một vài lần cho các vấn đề đào tạo TOÁN, lọc ra các giải pháp dẫn đến câu trả lời đúng cuối cùng và tinh chỉnh mô hình cơ sở cho một kỷ nguyên trên bộ dữ liệu này.
thu thập dữ liệu
Để thu thập dữ liệu được giám sát theo quy trình, nghiên cứu chỉ ra các giải pháp từng bước cho các nhà dán nhãn dữ liệu con người cho các vấn đề toán học được lấy mẫu bởi các trình tạo quy mô lớn. Nhiệm vụ của người gắn nhãn dữ liệu con người là gán nhãn tích cực, tiêu cực hoặc trung tính cho từng bước trong giải pháp, như minh họa trong Hình 1 bên dưới.
Mô hình Phần thưởng Giám sát Kết quả (ORM)
Nghiên cứu này đào tạo ORM theo cách tiếp cận tương tự như Cobbe và cộng sự (2021) và lấy mẫu một số giải pháp cố định cho từng vấn đề từ trình tạo, sau đó đào tạo ORM để dự đoán xem mỗi giải pháp có đúng hay không. Trên thực tế, thông thường người ta thường tự động kiểm tra tính chính xác của câu trả lời cuối cùng, nhưng về nguyên tắc, người dán nhãn cung cấp nhãn. Tại thời điểm thử nghiệm, nghiên cứu sử dụng dự đoán của ORM ở mã thông báo cuối cùng làm tổng điểm cho từng giải pháp.
Mô hình Khen thưởng Giám sát Quy trình (PRM)
PRM được sử dụng để dự đoán tính chính xác của các bước sau mã thông báo cuối cùng trong mỗi bước. Dự đoán này có dạng mã thông báo riêng lẻ và OpenAI tối đa hóa khả năng đăng nhập của các mã thông báo mục tiêu này trong quá trình đào tạo. Do đó, các PRM có thể được đào tạo trong các quy trình mô hình ngôn ngữ tiêu chuẩn mà không cần bất kỳ điều chỉnh đặc biệt nào.
Hình 2 cho thấy hai giải pháp cho cùng một vấn đề, câu trả lời bên trái là đúng và câu trả lời bên phải là sai. Nền xanh biểu thị điểm PRM cao và nền đỏ biểu thị điểm PRM thấp. PRM có thể xác định chính xác lỗi trong các giải pháp lỗi.
Giám sát hàng loạt
OpenAI sử dụng bộ dữ liệu được giám sát toàn bộ quy trình PRM800K để đào tạo PRM. Để làm cho điểm chuẩn ORM mạnh mẽ hơn, OpenAI cũng đào tạo 100 mẫu cho mỗi câu hỏi. Tất cả các mẫu này đều từ trình tạo, vì vậy không có mẫu trùng lặp giữa ORM bộ đào tạo và PRM800K .
Hình dưới đây cho thấy sự so sánh giữa các mô hình phần thưởng được giám sát theo kết quả và được giám sát theo quy trình cũng như các chương trình biểu quyết, cho thấy PRM hiệu quả hơn ORM và biểu quyết theo đa số trong việc tìm kiếm các giải pháp do mô hình tạo ra.
Để so sánh tốt hơn giữa giám sát kết quả và giám sát quá trình, điều đầu tiên cần lưu ý là tập huấn luyện của ORM và PRM không thể so sánh trực tiếp. Tập huấn luyện PRM được xây dựng bằng cách học tích cực và thiên về các giải pháp có câu trả lời sai. thứ tự độ lớn ít hơn.
Giám sát quy trình VS Giám sát kết quả
OpenAI đầu tiên lấy mẫu từ 1 đến 200 giải pháp cho từng vấn đề từ trình tạo quy mô nhỏ. Đối với mỗi tập dữ liệu, OpenAI cung cấp ba hình thức giám sát: giám sát quy trình từ PRM_large, giám sát kết quả từ PRM_large và giám sát kết quả từ kiểm tra câu trả lời cuối cùng.
Hình 4a cho thấy rằng giám sát quy trình tốt hơn đáng kể so với hai hình thức giám sát kết quả còn lại; Hình 4b cho thấy rằng giám sát kết quả bằng PRM_large hiệu quả hơn đáng kể so với giám sát kết quả bằng kiểm tra câu trả lời cuối cùng.
Để đo lường hiệu suất của các mô hình tổng quát hóa ngoài phân phối (OOD), OpenAI đánh giá ORM và PRM quy mô lớn trên phương pháp hold-out (phương pháp hold-out) bao gồm 224 bài toán STEM từ AP Vật lý mới nhất (American University Advanced Placement (AP) ), kỳ thi AP Calculus, AP Chemistry, AMC10 (được hiểu là thi giải toán) và AMC12, mẫu chưa thấy các câu hỏi này. 100 hiệu suất tốt nhất hàng đầu cho ORM, PRM và biểu quyết đa số được báo cáo trong Bảng 1. cho thấy rằng PRM vượt trội hơn cả ORM và bỏ phiếu theo đa số, và ngụ ý rằng hiệu suất của PRM đối với các vấn đề thử nghiệm mới vẫn như cũ.