Yapay zeka sektöründeki son gelişmeler bazı insanlar tarafından Dördüncü Sanayi Devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, her sektörde verimliliği önemli ölçüde artırdı, bazı araştırmalar GPT'nin ABD'de yaklaşık %20'lik bir iş verimliliği artışı sağladığını düşünüyor. Aynı zamanda büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak değerlendiriliyor; geçmişte yazılım tasarımı kesin kodlar üzerineyken, günümüzde yazılım tasarımı daha genelleştirilmiş büyük model çerçevelerinin yazılıma entegre edilmesiyle gerçekleşiyor. Bu yazılımlar daha iyi performans sergileyebiliyor ve daha geniş bir girdi-çıktı modlarını destekleyebiliyor. Derin öğrenme teknolojisi gerçekten de AI sektörüne Dördüncü bir refah dönemini getirdi, bu akım kripto para sektörüne de uzandı.
Bu rapor, AI endüstrisinin gelişim tarihini, teknolojik sınıflandırmasını ve derin öğrenme teknolojisinin endüstri üzerindeki etkisini ayrıntılı olarak araştıracaktır. Ardından, derin öğrenmedeki GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışını ve geliştirme durumlarını ve eğilimlerini derinlemesine analiz edecektir. Daha sonra, Crypto ve AI endüstrisi arasındaki ilişkiyi özünde inceleyecek ve Crypto ile ilgili AI endüstri zincirinin yapısını gözden geçireceğiz.
AI sektörünün gelişim tarihi
AI sektörü 20. yüzyılın 50'li yıllarından itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve sanayi dünyası farklı dönemlerde ve farklı disiplin arka planlarında yapay zekayı gerçekleştiren birçok akım geliştirmiştir.
Modern yapay zeka teknolojisinde en çok kullanılan terim "makine öğrenimi"dir. Bu teknolojinin temel prensibi, makinelerin veriye dayanarak görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesidir. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilmesi ve dağıtılması, ardından modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insan sinir sistemini, düşüncesini ve davranışını taklit eder.
Şu anda sinir ağlarıyla temsil edilen bağlanmacılık, derin öğrenme olarak da bilinir, (, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve çok sayıda gizli katman içermesidir. Katman sayısı ve sinir hücresi ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri uyarlamak için yeterli fırsat vardır. Veri girişleri ile sinir hücrelerinin parametreleri sürekli olarak ayarlanabilir, bu nedenle birçok veri deneyimledikten sonra, bu sinir hücresi en iyi duruma ulaşır ) parametre (. Bu nedenle, büyük bir güç ve mucize yaratma ifadesi buradan gelmektedir; bu da "derin" kelimesinin kökenidir - yeterince katman ve sinir hücresi sayısı.
Bir örnek vermek gerekirse, basitçe bir fonksiyon oluşturduğumuzu anlayabiliriz. Bu fonksiyona X=2 girdiğinde Y=3; X=3 girdiğinde Y=5 değerlerini veriyoruz. Eğer bu fonksiyonun tüm X değerlerine karşılık gelmesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekecek. Örneğin, bu koşulu sağlayan bir fonksiyon olarak Y = 2X -1 oluşturabilirim, ancak eğer bir veri X=2, Y=11 ise, bu üç veri noktasına uygun yeni bir fonksiyon yeniden oluşturmalıyız. GPU kullanarak kaba kuvvet yöntemiyle Y = X2 -3X +5 değerini buldum, bu oldukça uygun, ancak verilerle tamamen örtüşmesi gerekmez; sadece dengeyi koruması ve benzer bir çıktı vermesi yeterlidir. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3, 5 ise bunların parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verileri uyarlamak için nöronları ve parametreleri yineleyebiliriz. Böylece tüm verileri uyarlayabiliriz.
Derin öğrenme teknolojisi, sinir ağları temelinde birçok teknik iterasyon ve evrim geçirmiştir. Bunlar, yukarıdaki en eski sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi sırasıyla modern büyük modeller, örneğin GPT gibi, Transformer teknolojisini kullanır. Transformer teknolojisi, sinir ağlarının sadece bir evrim yönüdür; bir dönüştürücü ekler ) Transformer (, tüm modlar ), ses, video, resim vb. verilerini karşılık gelen sayısal değerlere kodlamak için kullanılır. Sonra bu veriler sinir ağlarına giriş yapılır, böylece sinir ağı her tür veriyi uyumlu hale getirebilir, yani çok modlu hale getirilir.
Yapay zeka gelişimi üç teknik dalga geçirdi, birinci dalga 1960'lı yıllardaydı, bu dalga yapay zeka teknolojisinin ortaya çıkışından on yıl sonra geldi, bu dalga sembolist teknik gelişmelerle tetiklendi, bu teknik genel doğal dil işleme ve insan-makine diyalog sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu, bu sistem, bir üniversitenin Amerika Birleşik Devletleri Ulusal Havacılık ve Uzay Dairesi'nin denetiminde tamamladığı DENRAL uzman sistemidir, bu sistem oldukça güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanı ile aynı cevapları üretir, bu kimya uzmanı sistemi kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak görülebilir.
Uzman sistemlerinden sonra, 1990'larda bir İsrailli-Amerikan bilim insanı ve filozof, Bayes ağlarını önerdi; bu ağlar aynı zamanda inanç ağları olarak da bilinir. Aynı dönemde, Brooks, davranış temelli robotik üzerine bir öneride bulunarak davranışçılığın doğuşunu simgeledi.
1997 yılında, bir teknoloji şirketi olan Deep Blue, satranç şampiyonunu 3.5:2.5 yenerek bu zafer, yapay zekanın bir dönüm noktası olarak görüldü ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında meydana geldi. Derin öğrenmenin üç büyük ismi, yapay sinir ağlarını temel alan ve veriler üzerinde temsili öğrenmeyi sağlayan bir algoritma olan derin öğrenme kavramını ortaya koydu. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi. Bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu aynı zamanda bağdaştırmacılığın altın çağıdır.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, bir teknoloji şirketinin Watson'ı "Tehlikeli Sınırlar" ( Jeopardy ) cevaplama yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN( Generatif Düşman Ağı, Generative Adversarial Network) önerdi. İki sinir ağı arasındaki rekabet yoluyla öğrenme gerçekleştirerek gerçek gibi görünen fotoğraflar üretebilmektedir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir giriş kitabı olan "Deep Learning" isimli bir kitap da yazmıştır, bu kitap "çiçek kitabı" olarak adlandırılmaktadır.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritmasını önerdiler, bu derin öğrenme yönteminin önerilmesi, hemen akademik çevrelerde ve sanayi dünyasında büyük yankı uyandırdı.
2015 yılında, bir yapay zeka şirketi kuruldu, birçok ünlü yatırımcı 1 milyar dolarlık ortak yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünyası şampiyonu ve profesyonel dokuzuncu kademe oyuncusu ile Go insan-makine savaşına girdi ve toplamda 4-1 galip geldi.
2017 yılında, Hong Kong'da bir robot teknolojisi şirketi tarafından geliştirilen insansı robot Sophia, tarih boyunca birinci sınıf vatandaşlık statüsü kazanan ilk robot olarak adlandırıldı ve zengin yüz ifadeleri ile insan dilini anlama yeteneğine sahiptir.
2017'de, yapay zeka alanında zengin bir yetenek ve teknoloji birikimine sahip bir teknoloji şirketi, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018 yılında, bir yapay zeka şirketi Transformer algoritmasına dayanan GPT(Generative Pre-trained Transformer)'i piyasaya sürdü, bu o dönemdeki en büyük dil modellerinden biriydi.
2018 yılında, bir teknoloji şirketinin ekibi derin öğrenmeye dayalı AlphaGo'yu piyasaya sürdü, bu da proteinlerin yapı tahmini yapabilme yeteneğine sahip olup yapay zeka alanında büyük bir ilerleme olarak değerlendirilmektedir.
2019 yılında, bir yapay zeka şirketi GPT-2'yi piyasaya sürdü, bu model 1.5 milyar parametreye sahip.
2020 yılında, bir yapay zeka şirketi tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki sürüm GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanılarak eğitilmiş olup, çoklu NLP( doğal dil işleme) görevlerinde( soru yanıtlama, çeviri, makale yazma) alanlarında en son teknoloji performansına ulaşabilmektedir.
2021'de, bir yapay zeka şirketi GPT-4'ü tanıttı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayanan ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihin en hızlı bir milyar kullanıcıya ulaşan uygulaması oldu.
2024'te bir yapay zeka şirketi GPT-4 omni'yi piyasaya sürdü.
Derin Öğrenme Sanayi Zinciri
Günümüzde büyük model dilleri, sinir ağlarına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT'nin öncülüğünde büyük modeller, yapay zekada bir dalga yarattı ve çok sayıda oyuncu bu alana akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin patladığını gözlemledik. Bu raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hakim olduğu AI endüstrisinde, yukarı ve aşağı akış nasıl oluşuyor ve yukarı ve aşağı akışın durumu, arz-talep ilişkisi ve gelecekteki gelişim nasıl olacak?
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitimi sırasında toplamda üç adımda ilerleyeceğidir.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir; bu süreç "Tokenizasyon" olarak adlandırılır, ardından bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak düşünülebilirken, her bir Çince karakter kabaca iki Token olarak düşünülebilir. Bu da GPT'nin fiyatlandırma için kullandığı temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk kısmında verilen örneklere benzer şekilde (X,Y), modelin altındaki her bir nöronun en iyi parametrelerini bulmak için, bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç aynı zamanda en fazla hesaplama gücünü tüketen süreçtir, çünkü nöronların çeşitli parametreleri denemesi için tekrar tekrar döngü yapması gerekmektedir. Bir veri çifti eğitim tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, bir grupta daha az ama çok yüksek kaliteli veriler vererek eğitim yapmaktır; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlayacaktır, çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit, çıktının sonuçlarını sıralamak. Bu nedenle, bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece ödül modelini büyük modelin parametrelerini otomatik olarak yinelemek için kullanabiliriz. ( Ancak bazen modelin çıktı kalitesini değerlendirmek için insan katılımı da gereklidir )
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim veri miktarı için çok yüksek talepler vardır, gereken GPU hesaplama gücü de en fazladır, oysa ince ayar, parametreleri iyileştirmek için daha yüksek kaliteli verilere ihtiyaç duyar, pekiştirmeli öğrenme ise daha yüksek kaliteli sonuçlar elde etmek için bir ödül modeli aracılığıyla parametreleri tekrar tekrar yineleyebilir.
Eğitim sürecinde, parametre sayısı arttıkça genel performansın üst sınırı da yükselir. Örneğin, bir fonksiyon örneği olarak Y = aX + b alalım; burada aslında iki nöron var: X ve X0. Dolayısıyla, parametreler nasıl değişirse değişsin, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğru. Eğer nöron sayısı artarsa, daha fazla parametreyi iterasyon yapabiliriz ve dolayısıyla daha fazla veriyi uyum sağlayabiliriz. İşte büyük modellerin büyük mucizeler yaratmasının nedeni budur ve bu da büyük modele popüler bir isim verilmesinin sebebidir; özünde devasa sayıda nöron ve parametre, devasa miktarda veri ve aynı zamanda devasa bir hesaplama gücü gerektirir.
Bu nedenle, büyük model performansını etkileyen temel üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, işlem gücü. Bu üçü birlikte büyük modelin sonuç kalitesini ve genelleme yeteneğini etkiler. Parametre sayısının p, veri miktarının n( Token sayısı olarak hesaplandığını varsayıyoruz, bu durumda gerekli hesaplama miktarını genel deneysel kurallarla hesaplayabiliriz. Böylece, ihtiyaç duyduğumuz işlem gücünü ve eğitim süresini yaklaşık olarak tahmin edebiliriz.
Hesaplama gücü genellikle Flops ile temel birim olarak ifade edilir ve bu, bir floating point işlemi temsil eder. Floating point işlemleri, tam sayı olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır; örneğin, 2.5 + 3.557. Floating point, ondalık noktasını içerebildiğini gösterirken, FP16 ondalık hassasiyetini destekler ve FP32 ise daha yaygın olarak kullanılan bir formattır.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
16 Likes
Reward
16
4
Share
Comment
0/400
YieldHunter
· 2h ago
hmm %20 verimlilik artışı mı? Teknik olarak veriler oldukça şüpheli görünüyor... muhtemelen sadece başka bir yapay zeka ponzi şeması açıkçası.
Yapay Zeka ve Kripto Varlıkların Bütünleşmesi: Gelişim Sürecinden Sektör Zinciri Genel Analizine
AI x Kripto: Sıfırdan Zirveye
Giriş
Yapay zeka sektöründeki son gelişmeler bazı insanlar tarafından Dördüncü Sanayi Devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, her sektörde verimliliği önemli ölçüde artırdı, bazı araştırmalar GPT'nin ABD'de yaklaşık %20'lik bir iş verimliliği artışı sağladığını düşünüyor. Aynı zamanda büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak değerlendiriliyor; geçmişte yazılım tasarımı kesin kodlar üzerineyken, günümüzde yazılım tasarımı daha genelleştirilmiş büyük model çerçevelerinin yazılıma entegre edilmesiyle gerçekleşiyor. Bu yazılımlar daha iyi performans sergileyebiliyor ve daha geniş bir girdi-çıktı modlarını destekleyebiliyor. Derin öğrenme teknolojisi gerçekten de AI sektörüne Dördüncü bir refah dönemini getirdi, bu akım kripto para sektörüne de uzandı.
Bu rapor, AI endüstrisinin gelişim tarihini, teknolojik sınıflandırmasını ve derin öğrenme teknolojisinin endüstri üzerindeki etkisini ayrıntılı olarak araştıracaktır. Ardından, derin öğrenmedeki GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışını ve geliştirme durumlarını ve eğilimlerini derinlemesine analiz edecektir. Daha sonra, Crypto ve AI endüstrisi arasındaki ilişkiyi özünde inceleyecek ve Crypto ile ilgili AI endüstri zincirinin yapısını gözden geçireceğiz.
AI sektörünün gelişim tarihi
AI sektörü 20. yüzyılın 50'li yıllarından itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve sanayi dünyası farklı dönemlerde ve farklı disiplin arka planlarında yapay zekayı gerçekleştiren birçok akım geliştirmiştir.
Modern yapay zeka teknolojisinde en çok kullanılan terim "makine öğrenimi"dir. Bu teknolojinin temel prensibi, makinelerin veriye dayanarak görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesidir. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verilerle modelin eğitilmesi, modelin test edilmesi ve dağıtılması, ardından modelin otomatik tahmin görevlerini yerine getirmek için kullanılmasıdır.
Şu anda makine öğreniminin üç ana akımı vardır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insan sinir sistemini, düşüncesini ve davranışını taklit eder.
Şu anda sinir ağlarıyla temsil edilen bağlanmacılık, derin öğrenme olarak da bilinir, (, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve çok sayıda gizli katman içermesidir. Katman sayısı ve sinir hücresi ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri uyarlamak için yeterli fırsat vardır. Veri girişleri ile sinir hücrelerinin parametreleri sürekli olarak ayarlanabilir, bu nedenle birçok veri deneyimledikten sonra, bu sinir hücresi en iyi duruma ulaşır ) parametre (. Bu nedenle, büyük bir güç ve mucize yaratma ifadesi buradan gelmektedir; bu da "derin" kelimesinin kökenidir - yeterince katman ve sinir hücresi sayısı.
Bir örnek vermek gerekirse, basitçe bir fonksiyon oluşturduğumuzu anlayabiliriz. Bu fonksiyona X=2 girdiğinde Y=3; X=3 girdiğinde Y=5 değerlerini veriyoruz. Eğer bu fonksiyonun tüm X değerlerine karşılık gelmesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekecek. Örneğin, bu koşulu sağlayan bir fonksiyon olarak Y = 2X -1 oluşturabilirim, ancak eğer bir veri X=2, Y=11 ise, bu üç veri noktasına uygun yeni bir fonksiyon yeniden oluşturmalıyız. GPU kullanarak kaba kuvvet yöntemiyle Y = X2 -3X +5 değerini buldum, bu oldukça uygun, ancak verilerle tamamen örtüşmesi gerekmez; sadece dengeyi koruması ve benzer bir çıktı vermesi yeterlidir. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3, 5 ise bunların parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verileri uyarlamak için nöronları ve parametreleri yineleyebiliriz. Böylece tüm verileri uyarlayabiliriz.
Derin öğrenme teknolojisi, sinir ağları temelinde birçok teknik iterasyon ve evrim geçirmiştir. Bunlar, yukarıdaki en eski sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi sırasıyla modern büyük modeller, örneğin GPT gibi, Transformer teknolojisini kullanır. Transformer teknolojisi, sinir ağlarının sadece bir evrim yönüdür; bir dönüştürücü ekler ) Transformer (, tüm modlar ), ses, video, resim vb. verilerini karşılık gelen sayısal değerlere kodlamak için kullanılır. Sonra bu veriler sinir ağlarına giriş yapılır, böylece sinir ağı her tür veriyi uyumlu hale getirebilir, yani çok modlu hale getirilir.
Yapay zeka gelişimi üç teknik dalga geçirdi, birinci dalga 1960'lı yıllardaydı, bu dalga yapay zeka teknolojisinin ortaya çıkışından on yıl sonra geldi, bu dalga sembolist teknik gelişmelerle tetiklendi, bu teknik genel doğal dil işleme ve insan-makine diyalog sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu, bu sistem, bir üniversitenin Amerika Birleşik Devletleri Ulusal Havacılık ve Uzay Dairesi'nin denetiminde tamamladığı DENRAL uzman sistemidir, bu sistem oldukça güçlü bir kimya bilgisine sahiptir ve sorular aracılığıyla çıkarım yaparak kimya uzmanı ile aynı cevapları üretir, bu kimya uzmanı sistemi kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak görülebilir.
Uzman sistemlerinden sonra, 1990'larda bir İsrailli-Amerikan bilim insanı ve filozof, Bayes ağlarını önerdi; bu ağlar aynı zamanda inanç ağları olarak da bilinir. Aynı dönemde, Brooks, davranış temelli robotik üzerine bir öneride bulunarak davranışçılığın doğuşunu simgeledi.
1997 yılında, bir teknoloji şirketi olan Deep Blue, satranç şampiyonunu 3.5:2.5 yenerek bu zafer, yapay zekanın bir dönüm noktası olarak görüldü ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında meydana geldi. Derin öğrenmenin üç büyük ismi, yapay sinir ağlarını temel alan ve veriler üzerinde temsili öğrenmeyi sağlayan bir algoritma olan derin öğrenme kavramını ortaya koydu. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi. Bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu aynı zamanda bağdaştırmacılığın altın çağıdır.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, bir teknoloji şirketinin Watson'ı "Tehlikeli Sınırlar" ( Jeopardy ) cevaplama yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN( Generatif Düşman Ağı, Generative Adversarial Network) önerdi. İki sinir ağı arasındaki rekabet yoluyla öğrenme gerçekleştirerek gerçek gibi görünen fotoğraflar üretebilmektedir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir giriş kitabı olan "Deep Learning" isimli bir kitap da yazmıştır, bu kitap "çiçek kitabı" olarak adlandırılmaktadır.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritmasını önerdiler, bu derin öğrenme yönteminin önerilmesi, hemen akademik çevrelerde ve sanayi dünyasında büyük yankı uyandırdı.
2015 yılında, bir yapay zeka şirketi kuruldu, birçok ünlü yatırımcı 1 milyar dolarlık ortak yatırım yapacağını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünyası şampiyonu ve profesyonel dokuzuncu kademe oyuncusu ile Go insan-makine savaşına girdi ve toplamda 4-1 galip geldi.
2017 yılında, Hong Kong'da bir robot teknolojisi şirketi tarafından geliştirilen insansı robot Sophia, tarih boyunca birinci sınıf vatandaşlık statüsü kazanan ilk robot olarak adlandırıldı ve zengin yüz ifadeleri ile insan dilini anlama yeteneğine sahiptir.
2017'de, yapay zeka alanında zengin bir yetenek ve teknoloji birikimine sahip bir teknoloji şirketi, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018 yılında, bir yapay zeka şirketi Transformer algoritmasına dayanan GPT(Generative Pre-trained Transformer)'i piyasaya sürdü, bu o dönemdeki en büyük dil modellerinden biriydi.
2018 yılında, bir teknoloji şirketinin ekibi derin öğrenmeye dayalı AlphaGo'yu piyasaya sürdü, bu da proteinlerin yapı tahmini yapabilme yeteneğine sahip olup yapay zeka alanında büyük bir ilerleme olarak değerlendirilmektedir.
2019 yılında, bir yapay zeka şirketi GPT-2'yi piyasaya sürdü, bu model 1.5 milyar parametreye sahip.
2020 yılında, bir yapay zeka şirketi tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki sürüm GPT-2'den 100 kat daha fazladır. Bu model, 570 GB metin kullanılarak eğitilmiş olup, çoklu NLP( doğal dil işleme) görevlerinde( soru yanıtlama, çeviri, makale yazma) alanlarında en son teknoloji performansına ulaşabilmektedir.
2021'de, bir yapay zeka şirketi GPT-4'ü tanıttı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 Ocak ayında GPT-4 modeline dayanan ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihin en hızlı bir milyar kullanıcıya ulaşan uygulaması oldu.
2024'te bir yapay zeka şirketi GPT-4 omni'yi piyasaya sürdü.
Derin Öğrenme Sanayi Zinciri
Günümüzde büyük model dilleri, sinir ağlarına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT'nin öncülüğünde büyük modeller, yapay zekada bir dalga yarattı ve çok sayıda oyuncu bu alana akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin patladığını gözlemledik. Bu raporun bu bölümünde, derin öğrenme algoritmalarının sanayi zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hakim olduğu AI endüstrisinde, yukarı ve aşağı akış nasıl oluşuyor ve yukarı ve aşağı akışın durumu, arz-talep ilişkisi ve gelecekteki gelişim nasıl olacak?
Öncelikle netleştirmemiz gereken şey, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin ( büyük modelinin ) eğitimi sırasında toplamda üç adımda ilerleyeceğidir.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir; bu süreç "Tokenizasyon" olarak adlandırılır, ardından bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak düşünülebilirken, her bir Çince karakter kabaca iki Token olarak düşünülebilir. Bu da GPT'nin fiyatlandırma için kullandığı temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk kısmında verilen örneklere benzer şekilde (X,Y), modelin altındaki her bir nöronun en iyi parametrelerini bulmak için, bu aşamada büyük miktarda veriye ihtiyaç vardır ve bu süreç aynı zamanda en fazla hesaplama gücünü tüketen süreçtir, çünkü nöronların çeşitli parametreleri denemesi için tekrar tekrar döngü yapması gerekmektedir. Bir veri çifti eğitim tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, bir grupta daha az ama çok yüksek kaliteli veriler vererek eğitim yapmaktır; bu tür bir değişiklik, modelin çıktısının daha yüksek kalitede olmasını sağlayacaktır, çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit, çıktının sonuçlarını sıralamak. Bu nedenle, bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece ödül modelini büyük modelin parametrelerini otomatik olarak yinelemek için kullanabiliriz. ( Ancak bazen modelin çıktı kalitesini değerlendirmek için insan katılımı da gereklidir )
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim veri miktarı için çok yüksek talepler vardır, gereken GPU hesaplama gücü de en fazladır, oysa ince ayar, parametreleri iyileştirmek için daha yüksek kaliteli verilere ihtiyaç duyar, pekiştirmeli öğrenme ise daha yüksek kaliteli sonuçlar elde etmek için bir ödül modeli aracılığıyla parametreleri tekrar tekrar yineleyebilir.
Eğitim sürecinde, parametre sayısı arttıkça genel performansın üst sınırı da yükselir. Örneğin, bir fonksiyon örneği olarak Y = aX + b alalım; burada aslında iki nöron var: X ve X0. Dolayısıyla, parametreler nasıl değişirse değişsin, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğru. Eğer nöron sayısı artarsa, daha fazla parametreyi iterasyon yapabiliriz ve dolayısıyla daha fazla veriyi uyum sağlayabiliriz. İşte büyük modellerin büyük mucizeler yaratmasının nedeni budur ve bu da büyük modele popüler bir isim verilmesinin sebebidir; özünde devasa sayıda nöron ve parametre, devasa miktarda veri ve aynı zamanda devasa bir hesaplama gücü gerektirir.
Bu nedenle, büyük model performansını etkileyen temel üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, işlem gücü. Bu üçü birlikte büyük modelin sonuç kalitesini ve genelleme yeteneğini etkiler. Parametre sayısının p, veri miktarının n( Token sayısı olarak hesaplandığını varsayıyoruz, bu durumda gerekli hesaplama miktarını genel deneysel kurallarla hesaplayabiliriz. Böylece, ihtiyaç duyduğumuz işlem gücünü ve eğitim süresini yaklaşık olarak tahmin edebiliriz.
Hesaplama gücü genellikle Flops ile temel birim olarak ifade edilir ve bu, bir floating point işlemi temsil eder. Floating point işlemleri, tam sayı olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır; örneğin, 2.5 + 3.557. Floating point, ondalık noktasını içerebildiğini gösterirken, FP16 ondalık hassasiyetini destekler ve FP32 ise daha yaygın olarak kullanılan bir formattır.