Недавнее развитие в области искусственного интеллекта рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях; некоторые исследования утверждают, что GPT повысил производительность труда в США примерно на 20%. В то же время универсальность, обеспечиваемая большими моделями, считается новой парадигмой проектирования программного обеспечения: если раньше проектирование программного обеспечения заключалось в написании точного кода, то теперь оно включает в себя более универсальные большие модели, встроенные в программы, которые могут демонстрировать лучшую производительность и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертой эпохе процветание в индустрию ИИ, и этот тренд также охватывает сферу криптовалют.
Этот отчет подробно рассмотрит историю развития отрасли ИИ, классификацию технологий и влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и т. д., а также их текущее состояние и тенденции. После этого мы в сущности обсудим взаимосвязь между криптовалютой и отраслью ИИ, а также проанализируем структуру цепочки поставок ИИ, связанной с криптовалютой.
История развития AI-индустрии
Искусственный интеллект начал развиваться с 50-х годов 20 века. Для реализации видения искусственного интеллекта академическая и промышленная сферы в разные эпохи и с различным научным фоном разработали множество направлений для достижения искусственного интеллекта.
Основным термином, используемым в современных технологиях искусственного интеллекта, является "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам улучшать производительность системы за счет многократной итерации на основе данных в процессе выполнения задачи. Основные шаги включают передачу данных в алгоритм, обучение модели с использованием этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматических предсказательных задач.
В настоящее время существует три основных направления в машинном обучении: соединительный подход, символический подход и бихевиористский подход, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время соединительная теория, представленная нейронными сетями, занимает лидирующие позиции (, также известная как глубокое обучение ). Основная причина этого заключается в том, что эта архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( параметров ) становится достаточно большим, появляется возможность подгонять сложные универсальные задачи. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном итоге, пройдя через множество данных, этот нейрон достигнет оптимального состояния ( параметров ), что и объясняет выражение "большая сила творит чудеса", а также происхождение слова "глубокий" — достаточно большое количество слоев и нейронов.
Приведем пример, его можно просто понять как построение функции, в которую мы вводим X=2, тогда Y=3; при X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, тогда нужно постоянно добавлять степень этой функции и ее параметры. Например, я в данный момент могу сконструировать функцию, удовлетворяющую этому условию, как Y = 2X - 1. Однако, если существует данные X=2, Y=11, то нужно перестроить функцию, подходящую для этих трех точек данных. Используя GPU для брутфорс-метода, мы обнаруживаем, что Y = X2 - 3X + 5, что довольно подходит, но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и выдавать приблизительно схожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В это время, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры, чтобы подогнать новые данные. Таким образом, мы можем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как первые нейронные сети, сети прямого распространения, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологии Transformer. Технология Transformer - это только одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, то есть реализовать многомодальность.
Развитие ИИ прошло три волны технологий. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человека с машиной. В то же время возникли экспертные системы, одна из которых была завершена по настоянию NASA в университете и стала известной как экспертная система DENRAL. Эта система обладает очень сильными знаниями в области химии и делает выводы по вопросам, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта экспертная система по химии может рассматриваться как сочетание банка знаний по химии и системы вывода.
После экспертных систем в 1990-х годах израильско-американский ученый и философ предложил байесовские сети, которые также называются сетями убеждений. В то же время Брукс предложил поведенческую робототехнику, что стало знаменем рождения бихевиоризма.
В 1997 году глубокий синий "Blue" компании технологии победил чемпиона мира по шахматам со счетом 3.5:2.5, эта победа считается вехой в искусственном интеллекте, технологии ИИ вступили во вторую волну своего развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения представили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представления данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также был расцвет соединительного подхода.
Множество знаковых событий также постепенно возникает на фоне исследований и развития технологий глубокого обучения, включая:
В 2011 году технологическая компания Watson одержала победу над человеком и выиграла чемпионат в тестовом шоу "Опасная граница" (Jeopardy).
В 2014 году Гудфеллоу предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая обучается путем взаимодействия двух нейронных сетей, способных генерировать фальшивые, но реалистичные фотографии. В то же время Гудфеллоу написал книгу "Deep Learning", известную как "цветочная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. в журнале «Природа» представили алгоритм глубокого обучения, что сразу вызвало огромный резонанс в академических кругах и промышленности.
В 2015 году была основана компания искусственного интеллекта, несколько известных инвесторов объявили о совместном вложении 1 миллиарда долларов.
В 2016 году, основанный на технологиях глубокого обучения AlphaGo провел матч по го против чемпиона мира и профессионального игрока 9 дан, выиграв со счетом 4:1.
В 2017 году компания по разработке робототехники в Гонконге создала гуманоидного робота Софию, который стал первым в истории роботом, получившим статус полноценного гражданина; он обладает богатым спектром лицевых выражений и способностью понимать человеческий язык.
В 2017 году технологическая компания с богатым кадровым и технологическим резервом в области искусственного интеллекта опубликовала статью «Внимание — это всё, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году одна компания по искусственному интеллекту выпустила GPT(Generative Pre-trained Transformer), построенный на алгоритме Transformer, который стал одной из крупнейших языковых моделей на тот момент.
В 2018 году команда технологической компании выпустила AlphaGo, основанный на глубоком обучении, который способен предсказывать структуру белков и считается огромным шагом вперед в области искусственного интеллекта.
В 2019 году компания искусственного интеллекта выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году компания по разработке искусственного интеллекта создала GPT-3, который имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в различных задачах NLP(, таких как ответ на вопросы, перевод и написание статей).
В 2021 году компания искусственного интеллекта выпустила GPT-4, модель которой обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достигла ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году одна компания по производству искусственного интеллекта выпустила GPT-4 omni.
В настоящее время языковые модели большого масштаба используют методы глубокого обучения на основе нейронных сетей. Модели большого масштаба, возглавляемые GPT, породили волну интереса к искусственному интеллекту, и множество игроков хлынули на этот рынок. Мы также обнаружили значительный рост спроса на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем промышленную цепочку алгоритмов глубокого обучения, каковы составные части этой цепочки в AI-индустрии, управляемой алгоритмами глубокого обучения, а также каковы текущие условия и соотношение спроса и предложения в этой цепочке, а также ее будущее развитие.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs( на основе технологии Transformer, такой как GPT), всего существует три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовой формат, этот процесс называется "Tokenization". После этого эти числовые значения называются Token. По общему правилу, одно английское слово или символ можно грубо считать одним Token, а каждый иероглиф можно грубо считать двумя Token. Это также базовая единица, используемая для оценки GPT.
Первый шаг, предварительное обучение. Путем предоставления достаточного количества пар данных на входном слое, аналогично приведенному в первой части отчета примеру (X,Y), необходимо найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является самым ресурсоемким, так как необходимо многократно итерировать нейроны, пробуя различные параметры. После завершения обучения одной партии пар данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это процесс, при котором модель обучается на небольшой, но очень качественной выборке данных. Такие изменения позволяют повысить качество выходных данных модели, потому что предобучение требует больших объемов данных, но многие из них могут содержать ошибки или быть низкого качества. Этап дообучения может улучшить качество модели за счет использования высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: отсортировать результаты вывода. Поэтому реализация этой модели будет довольно простой, поскольку бизнес-сцена довольно узкая. Затем мы используем эту модель для определения того, является ли вывод нашей большой модели качественным, так мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также необходимо человеческое участие для оценки качества вывода модели ).
Короче говоря, в процессе обучения больших моделей предварительное обучение предъявляет очень высокие требования к объему данных, а необходимая вычислительная мощность GPU также максимальна. В то время как дообучение требует более качественных данных для улучшения параметров, обучение с подкреплением может многократно итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в нашем примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0. Таким образом, как бы ни изменялись параметры, данные, которые можно аппроксимировать, крайне ограничены, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно обрабатывать больше параметров, что позволяет аппроксимировать больше данных. Это и есть причина, по которой большие модели творят чудеса, и именно поэтому их называют большими моделями. По сути, это огромное количество нейронов и параметров, а также огромное количество данных, что требует также огромных вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n(, рассчитываемый по количеству токенов), тогда мы можем рассчитать необходимое количество вычислительных ресурсов с помощью общего эмпирического правила, что позволит нам оценить, сколько вычислительной мощности нам примерно нужно будет купить, а также время обучения.
Вычислительная мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающие вычисления - это общее название для сложения, вычитания, умножения и деления нецелых чисел, например, 2.5+3.557. Плавающая точка обозначает возможность наличия десятичной точки, а FP16 соответствует поддержке десятичной точности, в то время как FP32 является более распространенным.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
16 Лайков
Награда
16
4
Поделиться
комментарий
0/400
YieldHunter
· 2ч назад
хм 20% прирост продуктивности? с технической точки зрения данные выглядят подозрительно... вероятно, это просто еще одна AI-понзи-схема, если честно.
Слияние ИИ и криптоактивов: от истории развития до панорамного анализа цепочки поставок
ИИ x Крипто: от нуля до вершины
Введение
Недавнее развитие в области искусственного интеллекта рассматривается некоторыми как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях; некоторые исследования утверждают, что GPT повысил производительность труда в США примерно на 20%. В то же время универсальность, обеспечиваемая большими моделями, считается новой парадигмой проектирования программного обеспечения: если раньше проектирование программного обеспечения заключалось в написании точного кода, то теперь оно включает в себя более универсальные большие модели, встроенные в программы, которые могут демонстрировать лучшую производительность и поддерживать более широкий спектр входных и выходных данных. Технология глубокого обучения действительно принесла четвертой эпохе процветание в индустрию ИИ, и этот тренд также охватывает сферу криптовалют.
Этот отчет подробно рассмотрит историю развития отрасли ИИ, классификацию технологий и влияние изобретения технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на краю и т. д., а также их текущее состояние и тенденции. После этого мы в сущности обсудим взаимосвязь между криптовалютой и отраслью ИИ, а также проанализируем структуру цепочки поставок ИИ, связанной с криптовалютой.
История развития AI-индустрии
Искусственный интеллект начал развиваться с 50-х годов 20 века. Для реализации видения искусственного интеллекта академическая и промышленная сферы в разные эпохи и с различным научным фоном разработали множество направлений для достижения искусственного интеллекта.
Основным термином, используемым в современных технологиях искусственного интеллекта, является "машинное обучение". Идея этой технологии заключается в том, чтобы позволить машинам улучшать производительность системы за счет многократной итерации на основе данных в процессе выполнения задачи. Основные шаги включают передачу данных в алгоритм, обучение модели с использованием этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматических предсказательных задач.
В настоящее время существует три основных направления в машинном обучении: соединительный подход, символический подход и бихевиористский подход, которые имитируют человеческую нервную систему, мышление и поведение соответственно.
В настоящее время соединительная теория, представленная нейронными сетями, занимает лидирующие позиции (, также известная как глубокое обучение ). Основная причина этого заключается в том, что эта архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( параметров ) становится достаточно большим, появляется возможность подгонять сложные универсальные задачи. Путем ввода данных можно постоянно настраивать параметры нейронов, и в конечном итоге, пройдя через множество данных, этот нейрон достигнет оптимального состояния ( параметров ), что и объясняет выражение "большая сила творит чудеса", а также происхождение слова "глубокий" — достаточно большое количество слоев и нейронов.
Приведем пример, его можно просто понять как построение функции, в которую мы вводим X=2, тогда Y=3; при X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, тогда нужно постоянно добавлять степень этой функции и ее параметры. Например, я в данный момент могу сконструировать функцию, удовлетворяющую этому условию, как Y = 2X - 1. Однако, если существует данные X=2, Y=11, то нужно перестроить функцию, подходящую для этих трех точек данных. Используя GPU для брутфорс-метода, мы обнаруживаем, что Y = X2 - 3X + 5, что довольно подходит, но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и выдавать приблизительно схожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В это время, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерационные параметры, чтобы подогнать новые данные. Таким образом, мы можем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как первые нейронные сети, сети прямого распространения, RNN, CNN, GAN, которые в конечном итоге эволюционировали в современные большие модели, такие как GPT, использующие технологии Transformer. Технология Transformer - это только одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, то есть реализовать многомодальность.
Развитие ИИ прошло три волны технологий. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решили проблемы общего обработки естественного языка и взаимодействия человека с машиной. В то же время возникли экспертные системы, одна из которых была завершена по настоянию NASA в университете и стала известной как экспертная система DENRAL. Эта система обладает очень сильными знаниями в области химии и делает выводы по вопросам, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эта экспертная система по химии может рассматриваться как сочетание банка знаний по химии и системы вывода.
После экспертных систем в 1990-х годах израильско-американский ученый и философ предложил байесовские сети, которые также называются сетями убеждений. В то же время Брукс предложил поведенческую робототехнику, что стало знаменем рождения бихевиоризма.
В 1997 году глубокий синий "Blue" компании технологии победил чемпиона мира по шахматам со счетом 3.5:2.5, эта победа считается вехой в искусственном интеллекте, технологии ИИ вступили во вторую волну своего развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения представили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представления данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также был расцвет соединительного подхода.
Множество знаковых событий также постепенно возникает на фоне исследований и развития технологий глубокого обучения, включая:
В 2011 году технологическая компания Watson одержала победу над человеком и выиграла чемпионат в тестовом шоу "Опасная граница" (Jeopardy).
В 2014 году Гудфеллоу предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая обучается путем взаимодействия двух нейронных сетей, способных генерировать фальшивые, но реалистичные фотографии. В то же время Гудфеллоу написал книгу "Deep Learning", известную как "цветочная книга", которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. в журнале «Природа» представили алгоритм глубокого обучения, что сразу вызвало огромный резонанс в академических кругах и промышленности.
В 2015 году была основана компания искусственного интеллекта, несколько известных инвесторов объявили о совместном вложении 1 миллиарда долларов.
В 2016 году, основанный на технологиях глубокого обучения AlphaGo провел матч по го против чемпиона мира и профессионального игрока 9 дан, выиграв со счетом 4:1.
В 2017 году компания по разработке робототехники в Гонконге создала гуманоидного робота Софию, который стал первым в истории роботом, получившим статус полноценного гражданина; он обладает богатым спектром лицевых выражений и способностью понимать человеческий язык.
В 2017 году технологическая компания с богатым кадровым и технологическим резервом в области искусственного интеллекта опубликовала статью «Внимание — это всё, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году одна компания по искусственному интеллекту выпустила GPT(Generative Pre-trained Transformer), построенный на алгоритме Transformer, который стал одной из крупнейших языковых моделей на тот момент.
В 2018 году команда технологической компании выпустила AlphaGo, основанный на глубоком обучении, который способен предсказывать структуру белков и считается огромным шагом вперед в области искусственного интеллекта.
В 2019 году компания искусственного интеллекта выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году компания по разработке искусственного интеллекта создала GPT-3, который имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в различных задачах NLP(, таких как ответ на вопросы, перевод и написание статей).
В 2021 году компания искусственного интеллекта выпустила GPT-4, модель которой обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достигла ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году одна компания по производству искусственного интеллекта выпустила GPT-4 omni.
! Newcomer Science丨AI x Crypto: от нуля до пика
Цепочка поставок в области глубокого обучения
В настоящее время языковые модели большого масштаба используют методы глубокого обучения на основе нейронных сетей. Модели большого масштаба, возглавляемые GPT, породили волну интереса к искусственному интеллекту, и множество игроков хлынули на этот рынок. Мы также обнаружили значительный рост спроса на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем промышленную цепочку алгоритмов глубокого обучения, каковы составные части этой цепочки в AI-индустрии, управляемой алгоритмами глубокого обучения, а также каковы текущие условия и соотношение спроса и предложения в этой цепочке, а также ее будущее развитие.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs( на основе технологии Transformer, такой как GPT), всего существует три этапа.
Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовой формат, этот процесс называется "Tokenization". После этого эти числовые значения называются Token. По общему правилу, одно английское слово или символ можно грубо считать одним Token, а каждый иероглиф можно грубо считать двумя Token. Это также базовая единица, используемая для оценки GPT.
Первый шаг, предварительное обучение. Путем предоставления достаточного количества пар данных на входном слое, аналогично приведенному в первой части отчета примеру (X,Y), необходимо найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является самым ресурсоемким, так как необходимо многократно итерировать нейроны, пробуя различные параметры. После завершения обучения одной партии пар данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение — это процесс, при котором модель обучается на небольшой, но очень качественной выборке данных. Такие изменения позволяют повысить качество выходных данных модели, потому что предобучение требует больших объемов данных, но многие из них могут содержать ошибки или быть низкого качества. Этап дообучения может улучшить качество модели за счет использования высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: отсортировать результаты вывода. Поэтому реализация этой модели будет довольно простой, поскольку бизнес-сцена довольно узкая. Затем мы используем эту модель для определения того, является ли вывод нашей большой модели качественным, так мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также необходимо человеческое участие для оценки качества вывода модели ).
Короче говоря, в процессе обучения больших моделей предварительное обучение предъявляет очень высокие требования к объему данных, а необходимая вычислительная мощность GPU также максимальна. В то время как дообучение требует более качественных данных для улучшения параметров, обучение с подкреплением может многократно итеративно изменять параметры с помощью модели вознаграждения для получения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, в нашем примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0. Таким образом, как бы ни изменялись параметры, данные, которые можно аппроксимировать, крайне ограничены, потому что по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно обрабатывать больше параметров, что позволяет аппроксимировать больше данных. Это и есть причина, по которой большие модели творят чудеса, и именно поэтому их называют большими моделями. По сути, это огромное количество нейронов и параметров, а также огромное количество данных, что требует также огромных вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Предположим, что количество параметров равно p, объем данных равен n(, рассчитываемый по количеству токенов), тогда мы можем рассчитать необходимое количество вычислительных ресурсов с помощью общего эмпирического правила, что позволит нам оценить, сколько вычислительной мощности нам примерно нужно будет купить, а также время обучения.
Вычислительная мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающие вычисления - это общее название для сложения, вычитания, умножения и деления нецелых чисел, например, 2.5+3.557. Плавающая точка обозначает возможность наличия десятичной точки, а FP16 соответствует поддержке десятичной точности, в то время как FP32 является более распространенным.