Analisis makalah baru Apple tentang masalah kehancuran akurasi DeepSeek-R1

Orang yang pernah menggunakan model DeepSeek-R1 pasti tidak asing dengan proses pemikiran yang dilaluinya sebelum memberikan jawaban, ini juga merupakan salah satu alasan mengapa model penalaran besar (LRM, Large Reasoning Model) yang mencakup DeepSeek-R1 sangat dihargai.

Namun, tim yang terdiri dari enam peneliti Apple mempertanyakan hal ini. Dengan meminta model untuk memecahkan berbagai teka-teki, tim peneliti menemukan bahwa akurasi model inferensi besar mutakhir, DeepSeek-R1, o3-mini, dan Claude-3.7-Sonnet-Thinking, runtuh secara menyeluruh setelah mereka melampaui ambang batas kompleksitas tertentu.

Gambar | Makalah terkait (sumber:

Perlu dicatat bahwa Samy Bengio, Direktur Senior Riset Pembelajaran Mesin di Apple, adalah salah satu penulis bersama makalah ini. Dia bukan hanya saudara dari pemenang Hadiah Turing Yoshua Bengio, tetapi juga salah satu anggota awal tim Google Brain.

Gambar | Enam penulis dari makalah terkait, yang kedua dari kanan adalah Samy Bengio (Sumber: Gambar arsip)

Seorang netizen di X menyimpulkan bahwa Apple adalah Gary Marcus (Gary Marcus), bahkan Gary Marcus sendiri juga memposting di LinkedIn untuk menegaskan makalah Apple. Dia menulis: "Makalah terbaru Apple tentang kemampuan untuk 'bernalar' dalam model bahasa besar cukup mengesankan. Dalam artikel akhir pekan yang panjang, saya menjelaskan mengapa (dan mengeksplorasi kemungkinan keberatan) untuk menunjukkan mengapa Anda tidak perlu terlalu terkejut. ”

Dalam "Artikel Akhir Pekan Panjang" karya Gary Marcus, dia menulis: "Makalah Apple baru ini lebih lanjut mendukung kritik saya sendiri: meskipun apa yang disebut 'model inferensi' yang baru dikembangkan telah secara berulang melampaui versi O1, mereka masih gagal mencapai penalaran yang dapat diandalkan di luar distribusi pada masalah klasik seperti Menara Hanoi." Ini adalah kabar buruk bagi para peneliti yang berharap bahwa 'kekuatan inferensi' atau 'komputasi waktu inferensi' akan membuat model bahasa besar kembali ke jalurnya, menjauh dari peningkatan skala sederhana dan kegagalan berulang (tidak pernah menghasilkan terobosan teknologi yang layak untuk nama 'GPT-5'). ”

Gambar | Gary Marcus menerbitkan "Tulisan Panjang Akhir Pekan" di situs pribadinya (sumber:

Jadi, apakah ini "berita buruk" atau "berita baik", mari kita mulai dengan rincian makalah Apple ini.

dapat menyelesaikan hingga 100 tindakan yang benar, tetapi tidak dapat memberikan lebih dari 5 langkah tindakan yang benar

Dalam penelitian ini, tim peneliti dari Apple menemukan tiga pola penalaran yang berbeda: pada tugas dengan kompleksitas rendah, model bahasa besar standar berkinerja lebih baik dibandingkan model penalaran besar; pada tugas dengan kompleksitas menengah, model penalaran besar menunjukkan kinerja yang lebih baik; sedangkan pada tugas dengan kompleksitas tinggi, kedua jenis model tidak dapat menyelesaikan tugas dengan efektif.

Ketika masalah mendekati kompleksitas kritis, upaya yang diperlukan untuk inferensi menurun secara berlawanan dengan intuisi, menunjukkan bahwa model inferensi besar mungkin memiliki batas atas yang melekat pada penskalaan komputasi.

Tim peneliti menyatakan bahwa wawasan ini menantang asumsi arus utama tentang kemampuan model inferensi besar dan menunjukkan bahwa metode saat ini mungkin memiliki hambatan mendasar dalam mencapai inferensi yang dapat digeneralisasi.

Yang paling mencolok adalah, tim peneliti mengamati keterbatasan model inferensi besar dalam melakukan perhitungan yang tepat. Misalnya, ketika algoritma pemecahan masalah permainan teka-teki matematika Tower of Hanoi diberikan kepada model, kinerjanya pada masalah ini tidak meningkat.

Selain itu, analisis mendalam terhadap langkah kesalahan pertama model mengungkap pola perilaku yang mengejutkan. Misalnya, model dapat melakukan hingga 100 tindakan yang benar dalam permainan Tower of Hanoi, tetapi tidak dapat memberikan lebih dari 5 langkah tindakan yang benar dalam permainan logika teka-teki menyeberang.

Secara keseluruhan, tim peneliti berpendapat bahwa makalah ini baik menyoroti keunggulan model inferensi besar yang ada, serta mengungkapkan keterbatasannya, dengan lima kesimpulan utama sebagai berikut:

Pertama, tim penelitian mempertanyakan paradigma evaluasi model inferensi besar saat ini pada tolok ukur matematika yang ditentukan, dan merancang platform pengujian eksperimen terkontrol menggunakan lingkungan teka-teki algoritma.

Kedua, eksperimen tim penelitian menunjukkan bahwa bahkan model inferensi besar yang paling canggih (seperti o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) masih belum mampu mengembangkan kemampuan pemecahan masalah yang dapat digeneralisasi. Dalam berbagai lingkungan, ketika kompleksitas masalah melebihi ambang batas tertentu, tingkat akurasinya akhirnya akan turun menjadi nol.

Ketiga, tim peneliti menemukan bahwa model inferensi besar memiliki batasan ekstensi terkait dengan kompleksitas masalah dalam kemampuannya untuk melakukan inferensi, yang dapat dibuktikan dari penurunan jumlah token pemikiran yang tidak intuitif setelah mencapai titik kompleksitas tertentu.

Keempat, tim peneliti mempertanyakan paradigma evaluasi saat ini berdasarkan akurasi akhir, dan analisis menunjukkan bahwa seiring dengan meningkatnya kompleksitas masalah, solusi yang benar muncul lebih lambat dalam proses penalaran daripada solusi yang salah.

Kelima, tim peneliti mengungkapkan keterbatasan mengejutkan dari model inferensi besar dalam kemampuan mereka untuk melakukan perhitungan yang tepat, termasuk ketidakmampuan mereka untuk mendapatkan manfaat dari algoritme eksplisit dan inkonsistensi dalam penalaran di berbagai jenis teka-teki.

Kemampuan model inferensi besar untuk memperbaiki diri terbatas

Menurut informasi yang diterima, model inferensi besar adalah varian baru yang diturunkan dari model bahasa besar yang dioptimalkan khusus untuk tugas inferensi.

Model-model ini merupakan produk teknologi baru, dengan ciri khas inti berupa mekanisme "pemikiran" yang unik, seperti rantai pemikiran yang memiliki kemampuan refleksi diri (CoT, Chain-of-Thought), dan menunjukkan kinerja yang luar biasa dalam berbagai pengujian standar penalaran.

Munculnya model-model ini menandai kemungkinan pergeseran paradigma dalam cara model bahasa besar menangani penalaran dan pemecahan masalah yang kompleks. Beberapa peneliti percaya bahwa ini merupakan langkah penting menuju kemampuan AI yang lebih umum.

Meskipun pandangan dan kemajuan kinerja ini sudah ada, keunggulan dan keterbatasan dasar dari model inferensi besar masih belum dipahami sepenuhnya. Sebuah pertanyaan kunci yang masih belum terjawab adalah: Apakah model inferensi besar ini memiliki kemampuan penalaran generalisasi? Atau apakah mereka hanya memanfaatkan berbagai bentuk pencocokan pola?

Bagaimana kinerja mereka berubah seiring dengan meningkatnya kompleksitas masalah? Mengingat anggaran komputasi token inferensi yang sama, bagaimana mereka dibandingkan dengan model bahasa besar standar yang tidak memiliki mekanisme "berpikir"?

Apa batasan inheren dari metode penalaran saat ini yang paling penting? Perbaikan apa yang mungkin diperlukan untuk mencapai kemampuan penalaran yang lebih kuat?

Tim peneliti berpendapat bahwa keterbatasan paradigma evaluasi saat ini menyebabkan kurangnya analisis sistematis terhadap isu-isu ini. Penilaian yang ada berfokus terutama pada tolok ukur matematika dan pengkodean yang mapan. Meskipun tolok ukur ini memiliki beberapa nilai, tolok ukur ini sering mengalami kontaminasi data dan tidak dapat memberikan kondisi eksperimental yang dapat dikendalikan untuk skenario dan kompleksitas yang berbeda.

Untuk memahami perilaku inferensi model-model ini dengan lebih ketat, tim penelitian berpendapat bahwa diperlukan lingkungan yang dapat melakukan eksperimen terkontrol.

Untuk itu, mereka tidak menggunakan standar acuan seperti soal matematika, melainkan menggunakan lingkungan teka-teki yang dapat dikendalikan, yaitu dengan menyesuaikan elemen teka-teki sambil mempertahankan logika inti, agar dapat secara sistematis mengubah kompleksitas, serta dapat memeriksa proses solusi dan proses penalaran internal.

(Sumber: Gambar data)

Teka-teki ini memiliki ciri-ciri sebagai berikut:

(1) Dapat memberikan kontrol yang tepat terhadap kompleksitas;

(2) Menghindari pencemaran umum dalam basis yang ada;

(3) hanya mengandalkan aturan yang diberikan dengan jelas, menekankan kemampuan penalaran algoritmik;

(4) Mendukung evaluasi ketat berbasis simulator, dapat mencapai pemeriksaan solusi yang tepat dan analisis kesalahan yang mendetail.

Melalui penelitian empiris, mereka mengungkapkan beberapa temuan kunci tentang model inferensi besar saat ini:

Pertama, meskipun model inferensi besar dapat mempelajari mekanisme refleksi diri yang kompleks melalui pembelajaran penguatan, mereka gagal mengembangkan kemampuan pemecahan masalah yang dapat digeneralisasi untuk tugas perencanaan, dan kinerja akan turun menjadi nol setelah melewati ambang kompleksitas tertentu.

Kedua, tim penelitian menunjukkan perbandingan antara model inferensi besar dan model besar standar di bawah perhitungan inferensi ekuivalen yang mengungkapkan tiga mekanisme inferensi yang berbeda.

Mekanisme pertama adalah: untuk masalah yang lebih sederhana dan memiliki kompleksitas yang lebih rendah, model besar standar menunjukkan efisiensi dan akurasi yang lebih tinggi.

Mekanisme kedua adalah bahwa ketika kompleksitas masalah meningkat secara moderat, model inferensi besar mendapatkan keuntungan.

Mekanisme ketiga adalah: ketika masalah menjadi kompleks seiring dengan meningkatnya kedalaman kombinasi, kedua jenis model mengalami keruntuhan kinerja secara menyeluruh.

(Sumber: Gambar data)

Penting untuk dicatat bahwa ketika kompleksitas masalah meningkat, model inferensi besar mulai mengurangi upaya inferensi mereka (seperti yang diukur dengan jumlah token pada saat inferensi), meskipun mereka berjalan jauh dari mencapai batas panjang generasi karena kompleksitas masalah meningkat.

!

(Sumber: Gambar data)

Ini menunjukkan bahwa ada batasan mendasar pada kemampuan penalaran model besar: waktu penalarannya akan meningkat secara signifikan seiring dengan meningkatnya kompleksitas masalah.

Selain itu, melalui analisis lintasan penalaran menengah, tim peneliti menemukan fenomena reguler yang terkait dengan kompleksitas masalah, yaitu, dalam masalah yang lebih sederhana, model inferensi seringkali dapat dengan cepat menemukan solusi yang salah, tetapi masih secara tidak efisien terus mengeksplorasi opsi yang salah, yang sering disebut sebagai "overthinking".

Dalam masalah dengan tingkat kompleksitas sedang, model perlu melalui eksplorasi yang luas terhadap banyak jalur yang salah sebelum dapat menemukan solusi yang benar. Namun, setelah melewati ambang kompleksitas tertentu, model sama sekali tidak dapat menemukan solusi yang benar.

Bai Ting, seorang profesor di Universitas Pos dan Telekomunikasi Beijing, mengatakan kepada DeepTech bahwa mirip dengan cara berpikir manusia, untuk masalah yang kompleks, meskipun mereka tidak tahu apa jawaban yang benar, sering kali mereka tahu apa yang salah. Secara khusus, ini terkait dengan ukuran ruang solusi, karena ruang solusi masalah sederhana pendek dan tingkat pencocokan fitur tinggi, solusi yang benar seringkali secara alami berada di ujung depan jalur berpikir, sedangkan ruang solusi masalah kompleks diperluas secara eksponensial karena penggabungan variabel multi-dimensi dan bersarang tingkat logis, dan ruang solusinya sangat besar, yang secara objektif dimanifestasikan sebagai postaritas relatif dalam urutan berpikir.

Apa yang terjadi di dalam "pemikiran" model inferensi?

Dalam penelitian, sebagian besar eksperimen dilakukan pada model inferensi dan model non-inferensi yang sesuai, seperti Claude 3.7 Sonnet (dengan inferensi/tanpa inferensi) dan DeepSeek-R1/V3. Tim penelitian memilih model-model ini karena berbeda dengan model-model seperti seri o dari OpenAI, mereka memungkinkan akses ke token pemikiran.

Untuk setiap contoh teka-teki, tim peneliti menghasilkan 25 sampel dan melaporkan kinerja rata-rata setiap model.

Untuk memahami lebih dalam tentang proses pemikiran model inferensi, tim peneliti melakukan analisis mendalam terhadap jejak inferensi mereka.

Selama periode tersebut, mereka membangun lingkungan eksperimen teka-teki untuk mencapai analisis mendalam terhadap jawaban akhir model, sehingga dapat melakukan observasi dan analisis yang lebih rinci terhadap jalur inferensi yang dihasilkan (yaitu "proses berpikir").

Secara spesifik, mereka menggunakan simulator teka-teki untuk mengekstrak dan menganalisis solusi sementara yang dieksplorasi dalam proses pemikiran model.

Selanjutnya, mereka menyelidiki pola dan karakteristik dari solusi ini, akurasi posisi urut dalam proses penalaran, serta bagaimana pola ini berevolusi seiring dengan meningkatnya kompleksitas masalah.

Dalam analisis ini, tim penelitian fokus pada jejak penalaran yang dihasilkan oleh model penalaran Claude 3.7 Sonnet dalam eksperimen kelompok teka-teki.

Untuk setiap solusi perantara yang diidentifikasi dalam jejak, tim peneliti mencatat hal-hal berikut: (1) posisi relatifnya dalam lintasan penalaran (dinormalisasi oleh total panjang pikiran), (2) kebenarannya seperti yang diverifikasi oleh simulator teka-teki tim peneliti, dan (3) kompleksitas masalah yang sesuai.

Ini memungkinkan tim penelitian untuk menggambarkan kemajuan dan akurasi pembentukan solusi selama seluruh proses penalaran.

! lgf2esRhQ8D8S5CgvuCS4e48OS2oxOtufupMh8Dx.png

Tim peneliti menemukan bahwa untuk masalah yang lebih sederhana, model penalaran biasanya akan menemukan solusi yang benar di awal pemikiran, tetapi kemudian akan terus mengeksplorasi metode penyelesaian yang salah.

Dibandingkan dengan solusi yang benar (hijau), distribusi solusi yang salah (merah) secara signifikan bergeser menuju akhir rantai pemikiran. Tren ini berbalik ketika kompleksitas masalah meningkat secara moderat: model mengeksplorasi solusi yang salah terlebih dahulu, dan sebagian besar sampai pada solusi yang benar di akhir pemikiran. Kali ini, distribusi solusi yang salah (merah) lebih miring ke bawah daripada solusi yang benar (hijau).

Akhirnya, untuk masalah yang lebih kompleks, model mulai mengalami keruntuhan, yang berarti model tidak dapat menghasilkan solusi yang benar selama proses berpikir.

Gambar di bawah ini menyajikan analisis tambahan mengenai akurasi solusi dalam segmen (interval) urutan pemikiran di lingkungan Tower of Hanoi.

n9VEKux2mllIbnTW6RTGNTE8mxgwiElcJwe7Twum.png

Dapat diamati bahwa untuk masalah yang lebih sederhana (nilai-N yang lebih kecil), akurasi solusi cenderung menurun atau berfluktuasi seiring berjalannya pemikiran, memberikan bukti lebih lanjut untuk fenomena overthinking.

Namun, untuk masalah yang lebih kompleks, tren ini akan berubah - akurasi solusi akan meningkat seiring dengan kemajuan pemikiran, hingga mencapai ambang tertentu. Melebihi ambang kompleksitas ini, dalam "mode runtuh", akurasi model adalah nol.

Bai Ting mengatakan kepada DeepTech bahwa model tersebut membutuhkan banyak inferensi dalam masalah yang kompleks, dan dengan premis bahwa belum ada solusi yang benar, ada kemungkinan bahwa mekanisme inferensi model menggunakan beberapa iterasi untuk menghasilkan strategi pengoptimalan efisiensi, yang mungkin merupakan strategi perlindungan sumber daya untuk mencegah terlalu banyak iterasi. Oleh karena itu, temuan dalam makalah ini perlu dianalisis dan diverifikasi secara cermat dari tingkat implementasi model.

Bai Ting menunjukkan bahwa proses inferensi model besar pada dasarnya adalah pemanggilan pola memori dan mungkin juga demikian. Untuk model seperti DeepSeek-R1 dan o3-mini, kinerjanya sangat bergantung pada cakupan pola memori dalam data pelatihan. Ketika kompleksitas masalah melampaui ambang cakupan pola memori (seperti lingkungan teka-teki yang dapat dikendalikan yang dirancang oleh tim penelitian Apple kali ini), model akan terjebak dalam keadaan "nol akurasi".

Meskipun lingkungan teka-teki kali ini memungkinkan kontrol granular terhadap kompleksitas masalah dalam eksperimen yang terkontrol, mereka hanya mewakili sebagian kecil dari tugas penalaran dan mungkin tidak dapat menangkap keragaman masalah penalaran dunia nyata atau yang berbasis pengetahuan.

Perlu dicatat bahwa penelitian ini terutama didasarkan pada akses API kotak hitam ke model inferensi canggih yang tertutup, batasan ini membuat tim peneliti tidak dapat menganalisis keadaan internal atau komponen arsitektur.

Selain itu, saat menggunakan simulator teka-teki deterministik, tim penelitian berasumsi bahwa penalaran dapat divalidasi dengan sempurna langkah demi langkah. Namun, di bidang yang kurang terstruktur, validasi yang tepat ini mungkin sulit dicapai, sehingga membatasi penerapan metode analisis ini ke skenario penalaran yang lebih luas.

Secara keseluruhan, tim penelitian telah menyelidiki model-model besar yang canggih dari sudut pandang kompleksitas masalah melalui lingkungan pemecahan teka-teki yang terkontrol. Temuan ini mengungkapkan keterbatasan model saat ini: meskipun mereka memiliki mekanisme refleksi diri yang kompleks, model-model ini masih tidak dapat mengembangkan kemampuan penalaran yang dapat digeneralisasi setelah melewati ambang kompleksitas tertentu. Tim penelitian percaya bahwa temuan ini mungkin dapat membuka jalan untuk menyelidiki kemampuan penalaran model-model ini.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)