OpenAI akan memecahkan masalah matematika untuk GPT-4: model hadiahnya salah, dan tingkat pemecahan masalah telah mencapai tingkat yang baru

Sumber: Jantung Mesin

Untuk masalah penalaran matematis langkah demi langkah yang menantang, apakah lebih efektif memberikan hadiah di setiap langkah atau satu hadiah di akhir? Penelitian baru dari OpenAI memiliki jawabannya.

Sumber gambar: Dihasilkan oleh alat AI Tak Terbatas

Sekarang, model bahasa besar mengantar era "mahakuasa", di mana kemampuan untuk melakukan penalaran multi-langkah yang kompleks juga telah sangat ditingkatkan. Namun, bahkan model yang besar dan canggih pun dapat menghasilkan kesalahan logis, yang sering disebut halusinasi. Oleh karena itu, meredakan halusinasi merupakan langkah penting dalam membangun AGI yang selaras.

Untuk melatih model yang lebih andal, saat ini ada dua metode berbeda yang dapat dipilih untuk melatih model penghargaan, satu adalah pengawasan hasil dan yang lainnya adalah pengawasan proses. Model hadiah yang diawasi hasil (ORM) dilatih hanya menggunakan hasil akhir dari rantai pemikiran model, sementara model hadiah yang diawasi proses (PRM) menerima hadiah untuk setiap langkah dalam rantai pemikiran.

Mengingat pentingnya melatih model yang andal dan tingginya biaya umpan balik manusia, penting untuk secara hati-hati membandingkan pengawasan hasil dengan pengawasan proses. Sementara pekerjaan terbaru telah melakukan perbandingan ini, masih banyak pertanyaan.

Dalam makalah ini, OpenAI menyelidiki dan menemukan bahwa pengawasan proses secara signifikan mengungguli pengawasan hasil saat melatih model untuk memecahkan masalah pada kumpulan data MATEMATIKA. OpenAI memecahkan 78% masalah pada subset representatif dari set tes MATH menggunakan model PRM-nya sendiri.

Selain itu, untuk mendukung penelitian terkait, OpenAI juga membuka sumber PRM800K, kumpulan data lengkap yang berisi label umpan balik manusia tingkat langkah 800K, untuk melatih model hadiah optimal mereka.

Berikut ini adalah contoh pertanyaan dan jawaban nyata (Benar positif). Masalah ini dan contoh masalah lainnya yang dikutip oleh OpenAI berasal dari GPT-4. Masalah trigonometri yang menantang ini membutuhkan penerapan banyak identitas secara berurutan. Sebagian besar upaya solusi gagal karena sulit untuk mengetahui identitas mana yang benar-benar berguna. Meskipun GPT-4 biasanya gagal menyelesaikan masalah ini (hanya 0,1% benar), model penghargaan kami mengidentifikasi dengan tepat bahwa solusi ini efektif.

Mari kita lihat contoh jawaban pertanyaan positif palsu lainnya. Pada langkah keempat, GPT-4 secara salah mengklaim bahwa deret diulang setiap 12 suku, padahal sebenarnya diulang setiap 10 suku. Kesalahan penghitungan ini terkadang menipu model hadiah.

"Hasil yang sangat menarik dari penggunaan LLM untuk mengerjakan soal matematika adalah lebih efektif untuk mengawasi setiap langkah daripada hanya memeriksa jawabannya," kata Jan Leike, salah satu penulis makalah dan kepala tim OpenAI Alignment.

Menurut Jim Fan, seorang ilmuwan AI di Nvidia, "poin dari makalah ini sederhana: Untuk masalah langkah demi langkah yang menantang, hadiah diberikan di setiap langkah, bukan satu hadiah di akhir. Pada dasarnya, sinyal hadiah yang padat > jarang."

Mari kita lihat lebih dekat metode dan hasil makalah OpenAI.

Alamat kertas:

Alamat kumpulan data:

Ringkasan metode

Studi ini membandingkan supervisi hasil dengan supervisi proses mengikuti pendekatan yang mirip dengan Uesato dkk (2022). Perlu dicatat bahwa penelitian ini tidak memberikan hasil pengawasan manusia, karena semua pertanyaan dalam kumpulan data MATH memiliki jawaban yang dapat diperiksa secara otomatis. Sebaliknya, tidak ada cara mudah untuk mengotomatiskan pengawasan proses. Studi ini mengandalkan pelabelan data manusia untuk memberikan pengawasan proses, khususnya kebenaran setiap langkah dalam solusi yang memerlukan pembuatan model pelabelan manusia. Studi tersebut melakukan eksperimen dalam pengaturan skala besar dan skala kecil.

cakupan

Untuk setiap ukuran model, studi menggunakan model tetap untuk menghasilkan semua solusi. Model ini disebut generator, dan OpenAI mengatakan itu tidak akan meningkatkan generator dengan pembelajaran penguatan (RL).

** Model dasar **

Semua model besar disesuaikan berdasarkan model GPT-4. Studi ini juga menambahkan langkah pra-pelatihan tambahan — menyempurnakan semua model di MathMix, kumpulan data yang berisi sekitar 1,5 miliar token terkait matematika. Mirip dengan Lewkowycz et al.(2022), tim peneliti OpenAI menemukan bahwa pendekatan ini meningkatkan kemampuan penalaran matematis model.

Pembangun

Untuk mempermudah penguraian langkah-langkah individu, studi ini melatih generator untuk menghasilkan solusi dengan langkah-langkah yang dipisahkan oleh baris baru. Secara khusus, studi ini menggunakan solusi pembuatan beberapa tembakan untuk masalah pelatihan MATH, menyaring solusi yang mengarah ke jawaban akhir yang benar, dan menyempurnakan model dasar untuk satu zaman pada kumpulan data ini.

pengumpulan data

Untuk mengumpulkan data yang diawasi proses, penelitian menunjukkan solusi langkah demi langkah dari pelabel data manusia untuk masalah matematika yang diambil sampelnya oleh generator skala besar. Tugas pemberi label data manusia adalah untuk menetapkan label positif, negatif, atau netral pada setiap langkah dalam solusi, seperti yang ditunjukkan pada Gambar 1 di bawah ini.

Studi ini hanya memberi label solusi yang dihasilkan oleh generator besar untuk memaksimalkan nilai sumber daya data buatan yang terbatas. Studi ini merujuk pada seluruh dataset berlabel bertahap yang dikumpulkan sebagai PRM800K. Set pelatihan PRM800K berisi label langkah 800K yang mencakup solusi 75K untuk masalah 12K. Untuk meminimalkan overfitting, set pelatihan PRM800K berisi data dari 4,5K soal tes MATH, dan model hanya dievaluasi pada 500 soal tes MATH yang tersisa.

Model Hadiah yang Diawasi Hasil (ORM)

Studi ini melatih ORM mengikuti pendekatan yang mirip dengan Cobbe et al.(2021), dan mengambil sampel sejumlah solusi untuk setiap masalah dari generator, kemudian melatih ORM untuk memprediksi apakah setiap solusi benar atau tidak. Dalam praktiknya, adalah praktik umum untuk secara otomatis memeriksa kebenaran jawaban akhir, tetapi pemberi label manusia memberikan label pada prinsipnya. Pada saat pengujian, studi menggunakan prediksi ORM pada token akhir sebagai skor total untuk setiap solusi.

Process Supervisory Reward Model (PRM)

PRM digunakan untuk memprediksi kebenaran langkah setelah token terakhir di setiap langkah. Prediksi ini berbentuk token individual, dan OpenAI memaksimalkan kemungkinan log dari token target ini selama pelatihan. Oleh karena itu, PRM dapat dilatih dalam saluran model bahasa standar tanpa adaptasi khusus.

Gambar 2 menunjukkan dua solusi untuk masalah yang sama, jawaban di sebelah kiri benar, dan jawaban di sebelah kanan salah. Latar belakang hijau menunjukkan skor PRM tinggi dan latar belakang merah menunjukkan skor PRM rendah. PRM dapat dengan benar mengidentifikasi kesalahan dalam solusi kesalahan.

Saat melakukan pengawasan proses, OpenAI sengaja memilih untuk mengawasi hanya langkah kesalahan pertama, membuat perbandingan antara pengawasan hasil dan pengawasan proses menjadi lebih mudah. Untuk solusi yang tepat, kedua metode memberikan informasi yang sama karena setiap langkah adalah cara yang tepat untuk menyelesaikan masalah. Untuk solusi yang salah, kedua metode mengungkapkan setidaknya satu kesalahan, dan pemantauan proses juga mengungkapkan lokasi kesalahan yang sebenarnya.

Pengawasan massal

OpenAI menggunakan set data terawasi proses penuh PRM800K untuk melatih PRM. Agar tolok ukur ORM lebih kuat, OpenAI juga melatih 100 sampel untuk setiap pertanyaan. Sampel ini semuanya berasal dari generator, sehingga tidak ada sampel yang tumpang tindih di antara ORM set pelatihan dan PRM800K .

Gambar di bawah ini menunjukkan perbandingan model penghargaan dan skema pemungutan suara yang diawasi hasil dan diawasi proses, menunjukkan bahwa PRM lebih efektif daripada ORM dan pemungutan suara mayoritas dalam mencari solusi yang dihasilkan oleh model tersebut.

Pengawasan Komprehensif Skala Kecil

Untuk membandingkan supervisi hasil dan supervisi proses dengan lebih baik, hal pertama yang perlu diperhatikan adalah bahwa perangkat pelatihan ORM dan PRM tidak dapat dibandingkan secara langsung. urutan besarnya lebih kecil.

Pemantauan Proses VS Pemantauan Hasil

Sampel OpenAI pertama 1 hingga 200 solusi untuk setiap masalah dari generator skala kecil. Untuk setiap dataset, OpenAI menyediakan tiga bentuk pengawasan: pengawasan proses dari PRM_large, pengawasan hasil dari PRM_large, dan pengawasan hasil dari pemeriksaan jawaban akhir.

Gambar 4a menunjukkan bahwa pengawasan proses secara signifikan lebih baik daripada dua bentuk pengawasan hasil lainnya; Gambar 4b menunjukkan bahwa pengawasan hasil dengan PRM_besar secara signifikan lebih efektif daripada pengawasan hasil dengan pengecekan jawaban akhir.

** Generalisasi OOD **

Untuk mengukur kinerja model yang menggeneralisasi di luar distribusi (OOD), OpenAI mengevaluasi ORM dan PRM skala besar pada metode hold-out (hold-out method) yang terdiri dari 224 masalah STEM dari Fisika AP terbaru (American University Advanced Placement (AP ), Kalkulus AP, Kimia AP, AMC10 (dipahami sebagai kompetisi matematika) dan ujian AMC12, model belum melihat pertanyaan-pertanyaan ini. 100 penampilan terbaik untuk ORM, PRM dan voting mayoritas dilaporkan pada Tabel 1. menunjukkan bahwa PRM mengungguli ORM dan pemungutan suara mayoritas, dan menyiratkan bahwa kinerja PRM pada soal tes baru tetap sama.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)