Розвиток галузі штучного інтелекту в останній час деякими людьми розглядається як четверта промислова революція. Поява великих моделей значно підвищила ефективність у різних галузях, і деякі дослідження вважають, що GPT підвищив ефективність роботи в США приблизно на 20%. Водночас узагальнююча здатність, що виникає завдяки великим моделям, розглядається як нова парадигма проектування програмного забезпечення. Раніше проектування програмного забезпечення полягало в точному кодуванні, а тепер проектування програмного забезпечення — це впровадження більш узагальнених рамок великих моделей у програмне забезпечення, яке може забезпечити кращу продуктивність і підтримувати ширший спектр вхідних і вихідних даних. Технології глибокого навчання справді принесли четвертий розквіт у галузі ШІ, і ця хвиля також поширилася на галузь криптовалют.
Цей звіт детально розгляне історію розвитку індустрії ШІ, класифікацію технологій, а також вплив винаходу технології глибокого навчання на цю галузь. Потім ми глибше проаналізуємо ланцюги поставок в глибокому навчанні, такі як GPU, хмарні обчислення, джерела даних, пристрої на краю тощо, а також їхній стан розвитку та тенденції. Після цього ми по суті розглянемо взаємозв'язок між Crypto та індустрією ШІ, проаналізувавши структуру ланцюга вартості AI, пов'язаного з Crypto.
Історія розвитку індустрії штучного інтелекту
Індустрія штучного інтелекту почала свій розвиток у 50-х роках XX століття. Для реалізації бачення штучного інтелекту наукова та промислова сфера в різні епохи та з різними дисциплінами розробили багато напрямків для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", концепція якого полягає в тому, щоб дозволити машинам покращувати продуктивність системи шляхом повторних ітерацій на основі даних в завданнях. Основні етапи полягають у тому, щоб передати дані в алгоритм, використовувати ці дані для навчання моделі, тестувати та впроваджувати модель, а також використовувати модель для виконання автоматизованих прогнозних завдань.
Наразі машинне навчання має три основні напрямки: коннекціонізм, символізм та поведінковийism, які імітують людську нервову систему, мислення та поведінку.
На даний момент перевага належить зв'язковістю, представлена нейронними мережами, яка також відома як глибоке навчання (, головна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів та нейронів ) параметрів ( стає достатньо великою, з'являється достатньо можливостей для підгонки складних загальних завдань. Завдяки введенню даних можна постійно налаштовувати параметри нейронів, і в результаті, пройшовши через багато даних, цей нейрон досягне оптимального стану ) параметрів (, що й називається магією зусиль, і саме це є походженням слова "глибина" — достатня кількість шарів та нейронів.
Наприклад, можна просто зрозуміти, що ми сконструювали функцію, в яку ми вводимо X=2, тоді Y=3; X=3, тоді Y=5. Якщо ми хочемо, щоб ця функція відповідала всім X, то потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, я можу сконструювати функцію, яка задовольняє цю умову, як Y = 2X - 1, але якщо є дані X=2, Y=11, потрібно реконструювати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявляємо, що Y = X2 - 3X + 5, що є досить підходящим, але не обов'язково повністю збігатися з даними, лише потрібно дотримуватись балансу, приблизно схожий вихід буде достатнім. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 є їх параметрами.
У цей момент, якщо ми введемо в нейронну мережу велику кількість даних, ми можемо збільшити кількість нейронів та ітерацій параметрів, щоб підлаштувати нові дані. Таким чином, ми зможемо підлаштувати всі дані.
А на основі технології глибокого навчання з використанням нейронних мереж відбулося кілька ітерацій та еволюцій технологій, зокрема, як на зображенні, найраніші нейронні мережі, мережі з прямою передачею, RNN, CNN, GAN, зрештою, еволюціонували до сучасних великих моделей, таких як GPT, що використовують технологію Transformer. Технологія Transformer є лише одним із напрямків еволюції нейронних мереж, яка додала перетворювач ) Transformer (, для кодування даних усіх модальностей ), таких як аудіо, відео, зображення тощо ( у відповідні числові значення. Потім ці дані вводяться до нейронної мережі, таким чином нейронна мережа може адаптуватися до будь-якого типу даних, що і є реалізацією мультимодальності.
! [Newcomer Science Popular丨AI x Crypto: від нуля до піку])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Розвиток штучного інтелекту пройшов три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десятиліття після виникнення технологій штучного інтелекту. Ця хвиля була викликана розвитком символічних технологій, які вирішили проблеми загальної обробки природної мови та взаємодії людини з комп'ютером. У той же період з'явилися експертні системи, зокрема експертна система DENRAL, розроблена під наглядом університету для NASA. Ця система має дуже сильні знання в хімії та здатна здійснювати висновки на основі запитань, генеруючи відповіді, подібні до тих, які дає хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань і системи висновків.
Після експертних систем у 1990-х роках ізраїльсько-американський вчений і філософ запропонував байесівські мережі, які також відомі як мережі віри. У той же час Брукс запропонував поведінкову робототехніку, що стало ознакою народження поведінки.
1997 року технологічна компанія Deep Blue перемогла чемпіона світу з шахів з рахунком 3.5:2.5, ця перемога вважається віхою в історії штучного інтелекту, технології ШІ пережили другий сплеск розвитку.
Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три великі фахівці в галузі глибокого навчання запропонували концепцію глибокого навчання, алгоритму, що використовує штучні нейронні мережі для навчання представленню даних. Після цього алгоритми глибокого навчання поступово еволюціонували: від RNN, GAN до Transformer та Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт кононістичного підходу.
Багато знакових подій також супроводжувалися дослідженнями та еволюцією технології глибокого навчання, включаючи:
У 2011 році компанія технологій Watson перемогла людину, здобувши перемогу в тестовій програмі «Небезпечний край» )Jeopardy(.
У 2014 році Гудфеллоу запропонував GAN) Генеративну змагальну мережу, Generative Adversarial Network(, яка навчається шляхом суперництва двох нейронних мереж і може генерувати надзвичайно реалістичні фотографії. Також Гудфеллоу написав книгу "Deep Learning", яка називається "книжка з квітами", і є однією з важливих вступних книг у галузі глибокого навчання.
У 2015 році Хінтон та інші в журналі «Природа» запропонували алгоритм глибокого навчання, що викликало величезний резонанс у науковому середовищі та промисловості.
У 2015 році була створена компанія штучного інтелекту, і кілька відомих інвесторів оголосили про спільні інвестиції в сумі 1 мільярд доларів.
У 2016 році на базі технології глибокого навчання AlphaGo змагався з чемпіоном світу з го, професійним гравцем дев'ятого дану, і здобув перемогу з рахунком 4:1.
У 2017 році компанія з робототехніки з Гонконгу розробила гуманоїдного робота на ім'я Софія, якого називають першим роботом в історії, що отримав статус повноцінного громадянина, з багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році технологічна компанія з багатим кадровим та технологічним запасом у сфері штучного інтелекту опублікувала статтю «Увага — це все, що вам потрібно», у якій було представлено алгоритм Transformer, що призвело до появи масштабних мовних моделей.
У 2018 році компанія штучного інтелекту випустила GPT)Generative Pre-trained Transformer(, побудовану на базі алгоритму Transformer, яка була однією з найбільших мовних моделей того часу.
У 2018 році команда технологічної компанії випустила AlphaGo на основі глибокого навчання, здатний передбачити структуру білків, що вважається величезним прогресом у сфері штучного інтелекту.
У 2019 році компанія штучного інтелекту випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році компанія з штучного інтелекту розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж попередня версія GPT-2. Модель була навчена на 570 ГБ тексту і може досягати найсучасніших результатів у кількох завданнях обробки природної мови, таких як відповіді на запитання, переклад та написання статей.
У 2021 році одна компанія штучного інтелекту випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року був запущений додаток ChatGPT на основі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши найшвидшим додатком в історії, який досягнув ста мільйонів користувачів.
У 2024 році компанія штучного інтелекту запустила GPT-4 omni.
! [Newcomer Science丨AI x Crypto: від нуля до піку])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Ланцюг промисловості глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT, великі моделі спричинили бум штучного інтелекту, внаслідок чого на цей ринок увійшло багато учасників. Ми також виявили, що на ринку спостерігається величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми переважно досліджуємо промисловий ланцюг алгоритмів глибокого навчання: як складається верхня та нижня частини в AI-індустрії, керованій алгоритмами глибокого навчання, а також як виглядає сучасний стан та співвідношення попиту і пропозиції в цих сегментах, а також їхнє майбутнє.
По-перше, нам потрібно чітко усвідомити, що під час навчання великих моделей LLMs на базі технології Transformer, зокрема GPT), процес складається з трьох етапів.
Перед навчанням, оскільки він базується на Transformer, перетворювач має перетворити текстовий ввід у числовий формат, цей процес називається "Tokenization", після чого ці числа називаються Token. Згідно з загальним практичним правилом, одне англійське слово або символ можна грубо вважати одним Token, а кожен китайський ієрогліф можна грубо вважати двома Token. Це також є базовою одиницею, яка використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних на вхідному шарі, аналогічно прикладам, наведеним у першій частині звіту (X,Y), шукають оптимальні параметри для кожного нейрона в моделі, в цей час потрібно багато даних, і цей процес також є найвитратнішим за обчислювальними ресурсами, оскільки потрібно багаторазово ітеративно пробувати різні параметри нейронів. Після завершення тренування однієї партії даних зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання полягає в наданні невеликої, але дуже якісної партії даних для навчання, такі зміни підвищать якість виходу моделі, оскільки попереднє навчання вимагає великої кількості даних, але багато з них можуть містити помилки або бути низької якості. Крок доопрацювання може покращити якість моделі за рахунок якісних даних.
Третій етап - посилене навчання. Спочатку буде створено нову модель, яку ми називаємо "модель винагороди". Мета цієї моделі дуже проста - це ранжування вихідних результатів, тому реалізувати цю модель буде досить просто, оскільки бізнес-сценарій є досить вертикальним. Потім ця модель буде використовуватися для визначення, чи є вихід великої моделі високоякісним, таким чином, можна використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ( Але іноді також потрібна людська участь для оцінки якості виходу моделі ).
Коротко кажучи, під час навчання великої моделі предтренування має дуже високі вимоги до обсягу даних, а необхідна обчислювальна потужність GPU є найбільшою, тоді як доопрацювання вимагає більш якісних даних для вдосконалення параметрів, а навчання з підкріпленням може повторно ітерувати параметри за допомогою моделі винагороди для отримання результатів вищої якості.
Під час навчання, чим більше параметрів, тим вища межа його узагальнюючої спроможності. Наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X і X0, тому, як би не змінювалися параметри, дані, які можна апроксимувати, надзвичайно обмежені, оскільки по суті це все ще пряма лінія. Якщо нейронів більше, то можна ітераційно обробляти більше параметрів, що дозволяє апроксимувати більше даних. Саме тому великі моделі творять дива, і це також причина, чому їх називають великими моделями. Суть полягає в величезній кількості нейронів і параметрів, а також величезному обсязі даних, при цьому потрібна величезна обчислювальна потужність.
Отже, на продуктивність великої моделі в основному впливають три аспекти: кількість параметрів, обсяг і якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великої моделі та її здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, що розраховується за кількістю токенів), тоді ми зможемо за допомогою загальних емпіричних правил обчислити необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність ми повинні придбати, а також час навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє одну операцію з плаваючою комою. Операції з плаваючою комою - це загальний термін для додавання, віднімання, множення та ділення нецілих чисел, таких як 2.5 + 3.557. Плаваюча кома означає можливість наявності десяткової крапки, а FP16 представляє собою підтримку точності з десятковими числами, FP32 є більш звичним.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
16 лайків
Нагородити
16
4
Поділіться
Прокоментувати
0/400
YieldHunter
· 2год тому
гм 20% приріст продуктивності? технічно кажучи, дані виглядають підозріло... напевно, це просто ще одна пірмідка на базі штучного інтелекту, чесно кажучи
AI та Криптоактиви: від історії розвитку до повного аналізу промислового ланцюга
AI x Crypto: від нуля до вершини
Вступ
Розвиток галузі штучного інтелекту в останній час деякими людьми розглядається як четверта промислова революція. Поява великих моделей значно підвищила ефективність у різних галузях, і деякі дослідження вважають, що GPT підвищив ефективність роботи в США приблизно на 20%. Водночас узагальнююча здатність, що виникає завдяки великим моделям, розглядається як нова парадигма проектування програмного забезпечення. Раніше проектування програмного забезпечення полягало в точному кодуванні, а тепер проектування програмного забезпечення — це впровадження більш узагальнених рамок великих моделей у програмне забезпечення, яке може забезпечити кращу продуктивність і підтримувати ширший спектр вхідних і вихідних даних. Технології глибокого навчання справді принесли четвертий розквіт у галузі ШІ, і ця хвиля також поширилася на галузь криптовалют.
Цей звіт детально розгляне історію розвитку індустрії ШІ, класифікацію технологій, а також вплив винаходу технології глибокого навчання на цю галузь. Потім ми глибше проаналізуємо ланцюги поставок в глибокому навчанні, такі як GPU, хмарні обчислення, джерела даних, пристрої на краю тощо, а також їхній стан розвитку та тенденції. Після цього ми по суті розглянемо взаємозв'язок між Crypto та індустрією ШІ, проаналізувавши структуру ланцюга вартості AI, пов'язаного з Crypto.
Історія розвитку індустрії штучного інтелекту
Індустрія штучного інтелекту почала свій розвиток у 50-х роках XX століття. Для реалізації бачення штучного інтелекту наукова та промислова сфера в різні епохи та з різними дисциплінами розробили багато напрямків для реалізації штучного інтелекту.
Сучасні технології штучного інтелекту в основному використовують термін "машинне навчання", концепція якого полягає в тому, щоб дозволити машинам покращувати продуктивність системи шляхом повторних ітерацій на основі даних в завданнях. Основні етапи полягають у тому, щоб передати дані в алгоритм, використовувати ці дані для навчання моделі, тестувати та впроваджувати модель, а також використовувати модель для виконання автоматизованих прогнозних завдань.
Наразі машинне навчання має три основні напрямки: коннекціонізм, символізм та поведінковийism, які імітують людську нервову систему, мислення та поведінку.
На даний момент перевага належить зв'язковістю, представлена нейронними мережами, яка також відома як глибоке навчання (, головна причина цього полягає в тому, що така архітектура має один вхідний шар, один вихідний шар, але кілька прихованих шарів. Як тільки кількість шарів та нейронів ) параметрів ( стає достатньо великою, з'являється достатньо можливостей для підгонки складних загальних завдань. Завдяки введенню даних можна постійно налаштовувати параметри нейронів, і в результаті, пройшовши через багато даних, цей нейрон досягне оптимального стану ) параметрів (, що й називається магією зусиль, і саме це є походженням слова "глибина" — достатня кількість шарів та нейронів.
Наприклад, можна просто зрозуміти, що ми сконструювали функцію, в яку ми вводимо X=2, тоді Y=3; X=3, тоді Y=5. Якщо ми хочемо, щоб ця функція відповідала всім X, то потрібно постійно додавати ступінь цієї функції та її параметри. Наприклад, я можу сконструювати функцію, яка задовольняє цю умову, як Y = 2X - 1, але якщо є дані X=2, Y=11, потрібно реконструювати функцію, яка підходить для цих трьох точок даних. Використовуючи GPU для брутфорсу, виявляємо, що Y = X2 - 3X + 5, що є досить підходящим, але не обов'язково повністю збігатися з даними, лише потрібно дотримуватись балансу, приблизно схожий вихід буде достатнім. Тут X2, X та X0 представляють різні нейрони, а 1, -3, 5 є їх параметрами.
У цей момент, якщо ми введемо в нейронну мережу велику кількість даних, ми можемо збільшити кількість нейронів та ітерацій параметрів, щоб підлаштувати нові дані. Таким чином, ми зможемо підлаштувати всі дані.
А на основі технології глибокого навчання з використанням нейронних мереж відбулося кілька ітерацій та еволюцій технологій, зокрема, як на зображенні, найраніші нейронні мережі, мережі з прямою передачею, RNN, CNN, GAN, зрештою, еволюціонували до сучасних великих моделей, таких як GPT, що використовують технологію Transformer. Технологія Transformer є лише одним із напрямків еволюції нейронних мереж, яка додала перетворювач ) Transformer (, для кодування даних усіх модальностей ), таких як аудіо, відео, зображення тощо ( у відповідні числові значення. Потім ці дані вводяться до нейронної мережі, таким чином нейронна мережа може адаптуватися до будь-якого типу даних, що і є реалізацією мультимодальності.
! [Newcomer Science Popular丨AI x Crypto: від нуля до піку])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Розвиток штучного інтелекту пройшов три технологічні хвилі. Перша хвиля відбулася в 60-х роках XX століття, через десятиліття після виникнення технологій штучного інтелекту. Ця хвиля була викликана розвитком символічних технологій, які вирішили проблеми загальної обробки природної мови та взаємодії людини з комп'ютером. У той же період з'явилися експертні системи, зокрема експертна система DENRAL, розроблена під наглядом університету для NASA. Ця система має дуже сильні знання в хімії та здатна здійснювати висновки на основі запитань, генеруючи відповіді, подібні до тих, які дає хімічний експерт. Цю хімічну експертну систему можна розглядати як поєднання хімічної бази знань і системи висновків.
Після експертних систем у 1990-х роках ізраїльсько-американський вчений і філософ запропонував байесівські мережі, які також відомі як мережі віри. У той же час Брукс запропонував поведінкову робототехніку, що стало ознакою народження поведінки.
1997 року технологічна компанія Deep Blue перемогла чемпіона світу з шахів з рахунком 3.5:2.5, ця перемога вважається віхою в історії штучного інтелекту, технології ШІ пережили другий сплеск розвитку.
Третя хвиля технологій штучного інтелекту відбулася в 2006 році. Три великі фахівці в галузі глибокого навчання запропонували концепцію глибокого навчання, алгоритму, що використовує штучні нейронні мережі для навчання представленню даних. Після цього алгоритми глибокого навчання поступово еволюціонували: від RNN, GAN до Transformer та Stable Diffusion, ці два алгоритми спільно сформували цю третю технологічну хвилю, а також це був розквіт кононістичного підходу.
Багато знакових подій також супроводжувалися дослідженнями та еволюцією технології глибокого навчання, включаючи:
У 2011 році компанія технологій Watson перемогла людину, здобувши перемогу в тестовій програмі «Небезпечний край» )Jeopardy(.
У 2014 році Гудфеллоу запропонував GAN) Генеративну змагальну мережу, Generative Adversarial Network(, яка навчається шляхом суперництва двох нейронних мереж і може генерувати надзвичайно реалістичні фотографії. Також Гудфеллоу написав книгу "Deep Learning", яка називається "книжка з квітами", і є однією з важливих вступних книг у галузі глибокого навчання.
У 2015 році Хінтон та інші в журналі «Природа» запропонували алгоритм глибокого навчання, що викликало величезний резонанс у науковому середовищі та промисловості.
У 2015 році була створена компанія штучного інтелекту, і кілька відомих інвесторів оголосили про спільні інвестиції в сумі 1 мільярд доларів.
У 2016 році на базі технології глибокого навчання AlphaGo змагався з чемпіоном світу з го, професійним гравцем дев'ятого дану, і здобув перемогу з рахунком 4:1.
У 2017 році компанія з робототехніки з Гонконгу розробила гуманоїдного робота на ім'я Софія, якого називають першим роботом в історії, що отримав статус повноцінного громадянина, з багатими виразами обличчя та здатністю розуміти людську мову.
У 2017 році технологічна компанія з багатим кадровим та технологічним запасом у сфері штучного інтелекту опублікувала статтю «Увага — це все, що вам потрібно», у якій було представлено алгоритм Transformer, що призвело до появи масштабних мовних моделей.
У 2018 році компанія штучного інтелекту випустила GPT)Generative Pre-trained Transformer(, побудовану на базі алгоритму Transformer, яка була однією з найбільших мовних моделей того часу.
У 2018 році команда технологічної компанії випустила AlphaGo на основі глибокого навчання, здатний передбачити структуру білків, що вважається величезним прогресом у сфері штучного інтелекту.
У 2019 році компанія штучного інтелекту випустила GPT-2, ця модель має 1,5 мільярда параметрів.
У 2020 році компанія з штучного інтелекту розробила GPT-3, який має 175 мільярдів параметрів, що в 100 разів більше, ніж попередня версія GPT-2. Модель була навчена на 570 ГБ тексту і може досягати найсучасніших результатів у кількох завданнях обробки природної мови, таких як відповіді на запитання, переклад та написання статей.
У 2021 році одна компанія штучного інтелекту випустила GPT-4, ця модель має 1,76 трильйона параметрів, що в 10 разів більше, ніж у GPT-3.
У січні 2023 року був запущений додаток ChatGPT на основі моделі GPT-4, у березні ChatGPT досягнув ста мільйонів користувачів, ставши найшвидшим додатком в історії, який досягнув ста мільйонів користувачів.
У 2024 році компанія штучного інтелекту запустила GPT-4 omni.
! [Newcomer Science丨AI x Crypto: від нуля до піку])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Ланцюг промисловості глибокого навчання
Сучасні великі мовні моделі використовують методи глибокого навчання на основі нейронних мереж. На чолі з GPT, великі моделі спричинили бум штучного інтелекту, внаслідок чого на цей ринок увійшло багато учасників. Ми також виявили, що на ринку спостерігається величезний попит на дані та обчислювальні потужності. Тому в цій частині звіту ми переважно досліджуємо промисловий ланцюг алгоритмів глибокого навчання: як складається верхня та нижня частини в AI-індустрії, керованій алгоритмами глибокого навчання, а також як виглядає сучасний стан та співвідношення попиту і пропозиції в цих сегментах, а також їхнє майбутнє.
По-перше, нам потрібно чітко усвідомити, що під час навчання великих моделей LLMs на базі технології Transformer, зокрема GPT), процес складається з трьох етапів.
Перед навчанням, оскільки він базується на Transformer, перетворювач має перетворити текстовий ввід у числовий формат, цей процес називається "Tokenization", після чого ці числа називаються Token. Згідно з загальним практичним правилом, одне англійське слово або символ можна грубо вважати одним Token, а кожен китайський ієрогліф можна грубо вважати двома Token. Це також є базовою одиницею, яка використовується для оцінки GPT.
Перший крок, попереднє навчання. Шляхом надання достатньої кількості пар даних на вхідному шарі, аналогічно прикладам, наведеним у першій частині звіту (X,Y), шукають оптимальні параметри для кожного нейрона в моделі, в цей час потрібно багато даних, і цей процес також є найвитратнішим за обчислювальними ресурсами, оскільки потрібно багаторазово ітеративно пробувати різні параметри нейронів. Після завершення тренування однієї партії даних зазвичай використовують ту ж саму партію даних для повторного навчання з метою ітерації параметрів.
Другий крок, доопрацювання. Доопрацювання полягає в наданні невеликої, але дуже якісної партії даних для навчання, такі зміни підвищать якість виходу моделі, оскільки попереднє навчання вимагає великої кількості даних, але багато з них можуть містити помилки або бути низької якості. Крок доопрацювання може покращити якість моделі за рахунок якісних даних.
Третій етап - посилене навчання. Спочатку буде створено нову модель, яку ми називаємо "модель винагороди". Мета цієї моделі дуже проста - це ранжування вихідних результатів, тому реалізувати цю модель буде досить просто, оскільки бізнес-сценарій є досить вертикальним. Потім ця модель буде використовуватися для визначення, чи є вихід великої моделі високоякісним, таким чином, можна використовувати модель винагороди для автоматичної ітерації параметрів великої моделі. ( Але іноді також потрібна людська участь для оцінки якості виходу моделі ).
Коротко кажучи, під час навчання великої моделі предтренування має дуже високі вимоги до обсягу даних, а необхідна обчислювальна потужність GPU є найбільшою, тоді як доопрацювання вимагає більш якісних даних для вдосконалення параметрів, а навчання з підкріпленням може повторно ітерувати параметри за допомогою моделі винагороди для отримання результатів вищої якості.
Під час навчання, чим більше параметрів, тим вища межа його узагальнюючої спроможності. Наприклад, у прикладі з функцією Y = aX + b, насправді є два нейрони X і X0, тому, як би не змінювалися параметри, дані, які можна апроксимувати, надзвичайно обмежені, оскільки по суті це все ще пряма лінія. Якщо нейронів більше, то можна ітераційно обробляти більше параметрів, що дозволяє апроксимувати більше даних. Саме тому великі моделі творять дива, і це також причина, чому їх називають великими моделями. Суть полягає в величезній кількості нейронів і параметрів, а також величезному обсязі даних, при цьому потрібна величезна обчислювальна потужність.
Отже, на продуктивність великої моделі в основному впливають три аспекти: кількість параметрів, обсяг і якість даних, обчислювальна потужність. Ці три фактори спільно впливають на якість результатів великої моделі та її здатність до узагальнення. Припустимо, що кількість параметрів дорівнює p, обсяг даних дорівнює n(, що розраховується за кількістю токенів), тоді ми зможемо за допомогою загальних емпіричних правил обчислити необхідну обчислювальну потужність, що дозволить нам приблизно оцінити, яку обчислювальну потужність ми повинні придбати, а також час навчання.
Обчислювальна потужність зазвичай вимірюється у Flops, що представляє одну операцію з плаваючою комою. Операції з плаваючою комою - це загальний термін для додавання, віднімання, множення та ділення нецілих чисел, таких як 2.5 + 3.557. Плаваюча кома означає можливість наявності десяткової крапки, а FP16 представляє собою підтримку точності з десятковими числами, FP32 є більш звичним.