Perkembangan industri kecerdasan buatan baru-baru ini dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, dengan beberapa penelitian menunjukkan bahwa GPT telah meningkatkan efisiensi kerja di Amerika Serikat sekitar 20%. Pada saat yang sama, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, di mana desain perangkat lunak di masa lalu adalah kode yang tepat, sementara desain perangkat lunak sekarang adalah kerangka model besar yang lebih umum yang disematkan ke dalam perangkat lunak, yang dapat memberikan kinerja yang lebih baik dan mendukung input serta output yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga telah meluas ke industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Selanjutnya, analisis mendalam akan dilakukan mengenai hulu dan hilir rantai industri dalam pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, dan perangkat tepi, serta keadaan dan tren perkembangannya. Setelah itu, kita akan membahas secara mendasar hubungan antara Crypto dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan Crypto.
Sejarah perkembangan industri AI
Industri AI dimulai sejak tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, kalangan akademis dan industri di berbagai zaman dan latar belakang disiplin ilmu yang berbeda telah mengembangkan banyak aliran untuk mewujudkan kecerdasan buatan.
Istilah utama yang digunakan dalam teknologi kecerdasan buatan modern adalah "pembelajaran mesin", yang memiliki konsep memungkinkan mesin untuk memperbaiki kinerja sistem melalui iterasi berulang menggunakan data dalam suatu tugas. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu konektivisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( yang juga dikenal sebagai pembelajaran mendalam ). Alasan utamanya adalah bahwa arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) cukup banyak, maka ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), itulah sebabnya kami mengatakan "kerja keras menghasilkan keajaiban", dan inilah asal usul kata "dalam" – cukup banyak lapisan dan neuron.
Sebagai contoh, bisa dipahami dengan sederhana bahwa kita membangun sebuah fungsi, di mana saat kita memasukkan X=2, Y=3; dan saat X=3, Y=5. Jika kita ingin fungsi ini dapat menangani semua X, maka kita perlu terus menambahkan derajat dan parameter fungsi ini. Misalnya, saya dapat membangun fungsi yang memenuhi kondisi ini sebagai Y = 2X -1. Namun, jika ada data dengan X=2, Y=11, kita perlu membangun ulang fungsi yang sesuai untuk ketiga titik data ini. Dengan menggunakan GPU untuk melakukan brute force, ditemukan Y = X2 -3X +5, yang cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan, output yang kira-kira serupa sudah cukup. Di sini, X2, X, dan X0 masing-masing mewakili neuron yang berbeda, sedangkan 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Teknologi pembelajaran mendalam berbasis jaringan saraf juga telah mengalami beberapa iterasi dan evolusi teknis, seperti jaringan saraf paling awal di gambar di atas, jaringan saraf feedforward, RNN, CNN, GAN, dan akhirnya berevolusi menjadi model besar modern seperti GPT yang menggunakan teknologi Transformer. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), yang digunakan untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk mewakili. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan diri dengan jenis data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi. Gelombang pertama adalah pada tahun 1960-an, satu dekade setelah teknologi AI pertama kali diusulkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta interaksi manusia-mesin. Pada waktu yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan sebuah universitas oleh NASA. Sistem ini memiliki pengetahuan kimia yang sangat kuat dan dapat membuat inferensi untuk menghasilkan jawaban yang sama dengan ahli kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, seorang ilmuwan dan filsuf Amerika keturunan Israel pada tahun 1990-an mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, perusahaan teknologi Deep Blue berhasil mengalahkan juara catur dunia dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning memperkenalkan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning secara bertahap berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan konektivisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson dari sebuah perusahaan teknologi mengalahkan manusia dan menjadi juara dalam acara kuis "Dangerous Edge" (Jeopardy).
Pada tahun 2014, Goodfellow mengusulkan GAN( Jaringan Generatif Adversarial, Generative Adversarial Network), yang dapat menghasilkan foto-foto yang tampak nyata melalui cara pembelajaran dengan membiarkan dua jaringan saraf saling berkompetisi. Sementara itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam di majalah "Nature", dan pengajuan metode pembelajaran mendalam ini segera menimbulkan reaksi besar di dunia akademis dan industri.
Pada tahun 2015, sebuah perusahaan kecerdasan buatan didirikan, beberapa investor terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis pada teknologi pembelajaran mendalam bertanding melawan juara dunia Go, seorang pemain profesional dengan peringkat sembilan, dan menang dengan skor total 4-1.
Pada tahun 2017, sebuah perusahaan teknologi robotika di Hong Kong, China, mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara satu tingkat. Robot ini memiliki ekspresi wajah yang kaya dan kemampuan pemahaman bahasa manusia.
Pada tahun 2017, sebuah perusahaan teknologi yang memiliki banyak bakat dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang mengusulkan algoritma Transformer, dan model bahasa berskala besar mulai muncul.
Pada tahun 2018, sebuah perusahaan kecerdasan buatan meluncurkan GPT(Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim dari sebuah perusahaan teknologi merilis AlphaGo yang berbasis pada deep learning, yang dapat memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, sebuah perusahaan kecerdasan buatan merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, sebuah perusahaan kecerdasan buatan mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih tinggi dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terdepan dalam berbagai tugas NLP(, termasuk menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, sebuah perusahaan kecerdasan buatan merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi dengan pertumbuhan tercepat mencapai seratus juta pengguna dalam sejarah.
Pada tahun 2024, sebuah perusahaan kecerdasan buatan meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Saat ini, model bahasa besar yang digunakan semuanya berbasis metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar ini telah menciptakan gelombang antusiasme dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi meledak secara besar-besaran. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, serta bagaimana keadaan dan hubungan penawaran dan permintaan hulu dan hilir, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita jelas adalah, saat melakukan pelatihan model besar yang dipimpin oleh GPT berbasis teknologi Transformer, ( dibagi menjadi tiga langkah.
Sebelum pelatihan, karena menggunakan Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan umum, satu kata atau karakter bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model ini, diperlukan banyak data pada saat ini, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus berulang kali mengiterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data berkualitas tinggi untuk melatih, perubahan seperti ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pre-training memerlukan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun sebuah model baru yang kita sebut "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga pembuatan model ini cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran model besar kita berkualitas tinggi, sehingga kita dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun, terkadang perlu juga partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga yang paling banyak, sementara penyesuaian memerlukan data berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang berkualitas lebih tinggi.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya terdapat dua neuron, X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya tetap merupakan sebuah garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat mengusulkan lebih banyak data. Inilah mengapa model besar dapat menghasilkan keajaiban, dan ini juga mengapa disebut model besar. Intinya adalah sejumlah besar neuron dan parameter, serta sejumlah besar data, yang juga membutuhkan daya komputasi yang besar.
Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga hal ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang dibutuhkan dengan menggunakan aturan umum, sehingga kita dapat memperkirakan kira-kira berapa banyak daya komputasi yang perlu dibeli dan waktu pelatihan yang dibutuhkan.
Kekuatan komputasi biasanya diukur dalam Flops, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian nilai non-integer, seperti 2.5+3.557. Floating point berarti dapat membawa titik desimal, sedangkan FP16 mewakili presisi yang mendukung angka desimal, dan FP32 adalah yang lebih umum.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
16 Suka
Hadiah
16
4
Bagikan
Komentar
0/400
YieldHunter
· 2jam yang lalu
hmm peningkatan produktivitas 20%? secara teknis data terlihat mencurigakan... mungkin hanya skema ponzi AI lainnya sejujurnya
Integrasi AI dan Aset Kripto: Dari Perkembangan Hingga Analisis Panorama Rantai Industri
AI x Crypto: Dari Nol ke Puncak
Pendahuluan
Perkembangan industri kecerdasan buatan baru-baru ini dianggap oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, dengan beberapa penelitian menunjukkan bahwa GPT telah meningkatkan efisiensi kerja di Amerika Serikat sekitar 20%. Pada saat yang sama, kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, di mana desain perangkat lunak di masa lalu adalah kode yang tepat, sementara desain perangkat lunak sekarang adalah kerangka model besar yang lebih umum yang disematkan ke dalam perangkat lunak, yang dapat memberikan kinerja yang lebih baik dan mendukung input serta output yang lebih luas. Teknologi pembelajaran mendalam memang telah membawa kemakmuran keempat bagi industri AI, dan gelombang ini juga telah meluas ke industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Selanjutnya, analisis mendalam akan dilakukan mengenai hulu dan hilir rantai industri dalam pembelajaran mendalam, termasuk GPU, komputasi awan, sumber data, dan perangkat tepi, serta keadaan dan tren perkembangannya. Setelah itu, kita akan membahas secara mendasar hubungan antara Crypto dan industri AI, serta merangkum pola rantai industri AI yang terkait dengan Crypto.
Sejarah perkembangan industri AI
Industri AI dimulai sejak tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, kalangan akademis dan industri di berbagai zaman dan latar belakang disiplin ilmu yang berbeda telah mengembangkan banyak aliran untuk mewujudkan kecerdasan buatan.
Istilah utama yang digunakan dalam teknologi kecerdasan buatan modern adalah "pembelajaran mesin", yang memiliki konsep memungkinkan mesin untuk memperbaiki kinerja sistem melalui iterasi berulang menggunakan data dalam suatu tugas. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu konektivisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf mendominasi ( yang juga dikenal sebagai pembelajaran mendalam ). Alasan utamanya adalah bahwa arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron ( serta parameter ) cukup banyak, maka ada cukup peluang untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, sehingga setelah melalui banyak data, neuron tersebut akan mencapai keadaan optimal ( parameter ), itulah sebabnya kami mengatakan "kerja keras menghasilkan keajaiban", dan inilah asal usul kata "dalam" – cukup banyak lapisan dan neuron.
Sebagai contoh, bisa dipahami dengan sederhana bahwa kita membangun sebuah fungsi, di mana saat kita memasukkan X=2, Y=3; dan saat X=3, Y=5. Jika kita ingin fungsi ini dapat menangani semua X, maka kita perlu terus menambahkan derajat dan parameter fungsi ini. Misalnya, saya dapat membangun fungsi yang memenuhi kondisi ini sebagai Y = 2X -1. Namun, jika ada data dengan X=2, Y=11, kita perlu membangun ulang fungsi yang sesuai untuk ketiga titik data ini. Dengan menggunakan GPU untuk melakukan brute force, ditemukan Y = X2 -3X +5, yang cukup sesuai, tetapi tidak perlu sepenuhnya cocok dengan data, hanya perlu mematuhi keseimbangan, output yang kira-kira serupa sudah cukup. Di sini, X2, X, dan X0 masing-masing mewakili neuron yang berbeda, sedangkan 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambah neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Teknologi pembelajaran mendalam berbasis jaringan saraf juga telah mengalami beberapa iterasi dan evolusi teknis, seperti jaringan saraf paling awal di gambar di atas, jaringan saraf feedforward, RNN, CNN, GAN, dan akhirnya berevolusi menjadi model besar modern seperti GPT yang menggunakan teknologi Transformer. Teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, yang menambahkan sebuah konverter ( Transformer ), yang digunakan untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk mewakili. Kemudian dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan diri dengan jenis data apa pun, yaitu mewujudkan multimodal.
Perkembangan AI telah mengalami tiga gelombang teknologi. Gelombang pertama adalah pada tahun 1960-an, satu dekade setelah teknologi AI pertama kali diusulkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis, yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta interaksi manusia-mesin. Pada waktu yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan sebuah universitas oleh NASA. Sistem ini memiliki pengetahuan kimia yang sangat kuat dan dapat membuat inferensi untuk menghasilkan jawaban yang sama dengan ahli kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi dari basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, seorang ilmuwan dan filsuf Amerika keturunan Israel pada tahun 1990-an mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai lahirnya behaviorisme.
Pada tahun 1997, perusahaan teknologi Deep Blue berhasil mengalahkan juara catur dunia dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak sejarah dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning memperkenalkan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning secara bertahap berkembang, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan konektivisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson dari sebuah perusahaan teknologi mengalahkan manusia dan menjadi juara dalam acara kuis "Dangerous Edge" (Jeopardy).
Pada tahun 2014, Goodfellow mengusulkan GAN( Jaringan Generatif Adversarial, Generative Adversarial Network), yang dapat menghasilkan foto-foto yang tampak nyata melalui cara pembelajaran dengan membiarkan dua jaringan saraf saling berkompetisi. Sementara itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, dan merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan kawan-kawan mengajukan algoritma pembelajaran mendalam di majalah "Nature", dan pengajuan metode pembelajaran mendalam ini segera menimbulkan reaksi besar di dunia akademis dan industri.
Pada tahun 2015, sebuah perusahaan kecerdasan buatan didirikan, beberapa investor terkenal mengumumkan untuk bersama-sama menginvestasikan 1 miliar dolar.
Pada tahun 2016, AlphaGo yang berbasis pada teknologi pembelajaran mendalam bertanding melawan juara dunia Go, seorang pemain profesional dengan peringkat sembilan, dan menang dengan skor total 4-1.
Pada tahun 2017, sebuah perusahaan teknologi robotika di Hong Kong, China, mengembangkan robot humanoid bernama Sophia, yang disebut sebagai robot pertama dalam sejarah yang mendapatkan status sebagai warga negara satu tingkat. Robot ini memiliki ekspresi wajah yang kaya dan kemampuan pemahaman bahasa manusia.
Pada tahun 2017, sebuah perusahaan teknologi yang memiliki banyak bakat dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang mengusulkan algoritma Transformer, dan model bahasa berskala besar mulai muncul.
Pada tahun 2018, sebuah perusahaan kecerdasan buatan meluncurkan GPT(Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim dari sebuah perusahaan teknologi merilis AlphaGo yang berbasis pada deep learning, yang dapat memprediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, sebuah perusahaan kecerdasan buatan merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, sebuah perusahaan kecerdasan buatan mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih tinggi dibandingkan versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja terdepan dalam berbagai tugas NLP(, termasuk menjawab pertanyaan, menerjemahkan, dan menulis artikel).
Pada tahun 2021, sebuah perusahaan kecerdasan buatan merilis GPT-4, model ini memiliki 1,76 triliun parameter, sepuluh kali lipat dari GPT-3.
Aplikasi ChatGPT berbasis model GPT-4 diluncurkan pada Januari 2023, pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi dengan pertumbuhan tercepat mencapai seratus juta pengguna dalam sejarah.
Pada tahun 2024, sebuah perusahaan kecerdasan buatan meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Saat ini, model bahasa besar yang digunakan semuanya berbasis metode pembelajaran mendalam berbasis jaringan saraf. Dengan GPT sebagai pemimpin, model besar ini telah menciptakan gelombang antusiasme dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi meledak secara besar-besaran. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri algoritma pembelajaran mendalam, bagaimana hulu dan hilir terbentuk dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, serta bagaimana keadaan dan hubungan penawaran dan permintaan hulu dan hilir, serta perkembangan di masa depan.
Pertama-tama, yang perlu kita jelas adalah, saat melakukan pelatihan model besar yang dipimpin oleh GPT berbasis teknologi Transformer, ( dibagi menjadi tiga langkah.
Sebelum pelatihan, karena menggunakan Transformer, maka konverter perlu mengubah input teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan umum, satu kata atau karakter bahasa Inggris dapat dianggap sebagai satu Token, sementara setiap karakter Han dapat dianggap sebagai dua Token. Ini juga merupakan unit dasar yang digunakan untuk penilaian GPT.
Langkah pertama, pra-pelatihan. Dengan memberikan cukup banyak pasangan data ke lapisan input, seperti yang dicontohkan pada bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model ini, diperlukan banyak data pada saat ini, dan proses ini juga merupakan proses yang paling menghabiskan daya komputasi, karena harus berulang kali mengiterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data berkualitas tinggi untuk melatih, perubahan seperti ini akan membuat output model memiliki kualitas yang lebih tinggi, karena pre-training memerlukan banyak data, tetapi banyak data mungkin mengandung kesalahan atau berkualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama-tama, akan dibangun sebuah model baru yang kita sebut "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga pembuatan model ini cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran model besar kita berkualitas tinggi, sehingga kita dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun, terkadang perlu juga partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga yang paling banyak, sementara penyesuaian memerlukan data berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengulangi parameter melalui model penghargaan untuk menghasilkan hasil yang berkualitas lebih tinggi.
Dalam proses pelatihan, semakin banyak parameter, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya terdapat dua neuron, X dan X0. Oleh karena itu, bagaimana parameter berubah, data yang dapat diusulkan sangat terbatas, karena pada dasarnya tetap merupakan sebuah garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, sehingga dapat mengusulkan lebih banyak data. Inilah mengapa model besar dapat menghasilkan keajaiban, dan ini juga mengapa disebut model besar. Intinya adalah sejumlah besar neuron dan parameter, serta sejumlah besar data, yang juga membutuhkan daya komputasi yang besar.
Oleh karena itu, kinerja model besar terutama ditentukan oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga hal ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang dibutuhkan dengan menggunakan aturan umum, sehingga kita dapat memperkirakan kira-kira berapa banyak daya komputasi yang perlu dibeli dan waktu pelatihan yang dibutuhkan.
Kekuatan komputasi biasanya diukur dalam Flops, yang mewakili satu operasi floating point. Operasi floating point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian nilai non-integer, seperti 2.5+3.557. Floating point berarti dapat membawa titik desimal, sedangkan FP16 mewakili presisi yang mendukung angka desimal, dan FP32 adalah yang lebih umum.