Класс ChatGPT Ву Энды взорвался: ИИ перестал писать слова задом наперед, но понял весь мир

Источник: Кубит

Неожиданно, даже сегодня ChatGPT все еще будет делать низкоуровневые ошибки?

Бог Ву Энда указал на это в последнем классе:

ChatGPT не переворачивает слова!

Например, пусть слово lollipop перевернуто, а на выходе получится pilolllol, что совершенно сбивает с толку.

О, это действительно немного бросается в глаза.

Настолько, что после того, как пользователи сети, которые посетили класс, разместили на Reddit, они сразу же привлекли большое количество зрителей, и популярность постов подскочила до 6k.

И это не случайный баг, пользователи сети обнаружили, что ChatGPT действительно не справляется с этой задачей, и результат нашего личного теста такой же.

△ Измеренный ChatGPT (GPT-3.5)

Даже не так много продуктов, включая Bard, Bing и Wenxin Yiyan.

△ Измеренный бард

△Испытание сердца и ума словом

Некоторые люди жаловались, что ChatGPT ужасно справляется с этими простыми словными задачами.

Например, игра Wordle, ранее популярная словесная игра, была катастрофой и никогда не делалась правильно.

А? Почему?

Ключ — это токен

Причина этого явления кроется в токене. Токены — это наиболее распространенные последовательности символов в тексте, и большие модели используют токены для обработки текста.

Это может быть целое слово или фрагмент слова. Большая модель понимает статистическую взаимосвязь между этими токенами и способна генерировать следующий токен.

Таким образом, при решении небольшой задачи перестановки слов может просто переворачиваться каждый токен, а не буква.

Это еще более очевидно в китайском контексте: слово — это токен, или слово — это токен.

Например, в начале кто-то пытался понять процесс рассуждений ChatGPT.

Для более интуитивного понимания OpenAI даже выпустила GPT-3 Tokenizer.

Например, слово леденец GPT-3 разделит на три части: I, oll, ipop.

По заключению опыта родились такие неписаные правила.

  • 1 токен ≈ 4 английских символа ≈ 3/4 слова;
  • 100 токенов ≈ 75 слов;
  • 1-2 предложения ≈ 30 жетонов;
  • Абзац ≈ 100 токенов, 1500 слов ≈ 2048 токенов;

Способ деления слов также зависит от языка. Согласно предыдущей статистике, количество токенов, используемых на китайском языке, в 1,2–2,7 раза больше, чем на английском языке.

Чем выше отношение токена к символу (токена к слову), тем выше стоимость обработки. Поэтому обработка китайских токенов обходится дороже, чем английских.

Можно понять, что токен — это способ для большой модели понять реальный мир людей. Это очень просто, а также значительно снижает сложность памяти и времени.

Однако существует проблема с токенизацией слов, из-за которой модели будет сложно изучить значимые входные представления.Наиболее интуитивно понятное представление заключается в том, что она не может понять значение слов.

В то время трансформеры были соответствующим образом оптимизированы, например, сложное и редкое слово было разделено на осмысленный токен и самостоятельный токен.

Подобно тому, как раздражающе делится на раздражающе и лы, первое сохраняет свою семантику, а второе встречается часто.

Это также способствовало ошеломляющим эффектам ChatGPT и других современных продуктов для крупномасштабных моделей, которые могут очень хорошо понимать человеческий язык.

Что же касается такой небольшой задачи, как невозможность перестановки слов, то, естественно, есть решение.

Самый простой и прямой способ — разделить слова самостоятельно~

Или вы можете позволить ChatGPT шаг за шагом, сначала токенизировать каждую букву.

Или пусть пишет программу, которая переворачивает буквы, и тогда результат программы правильный. (собачья голова)

Однако можно использовать и GPT-4, и в реальном измерении такой проблемы нет.

△ Измеренная ГПТ-4

Короче говоря, токен является краеугольным камнем для понимания ИИ естественного языка.

Токен становится все более и более очевидным в качестве моста для понимания естественного языка человека ИИ.

Это стало ключевым фактором, определяющим производительность моделей ИИ, а также стандартом выставления счетов для крупных моделей.

даже иметь символическую литературу

Как упоминалось выше, токен может облегчить модели захват ** более мелкой ** семантической информации, такой как значение слова, порядок слов, грамматическая структура и т. д. Его порядок и положение имеют решающее значение в задачах моделирования последовательности, таких как моделирование языка, машинный перевод, генерация текста и т. д.

Только когда модель точно понимает положение и контекст каждого токена в последовательности, она может лучше предсказывать содержимое и давать разумные результаты.

Следовательно, качество и количество токена напрямую влияют на эффект модели.

С начала этого года, когда выпускается все больше и больше крупных моделей, особое внимание будет уделяться количеству токенов, например, в деталях экспозиции Google PaLM 2 упоминалось, что для обучения было использовано 3,6 трлн токенов.

И многие крупные шишки в отрасли также говорили, что токен — это действительно ключ!

Андрей Карпати, ученый в области искусственного интеллекта, который в этом году перешел от Tesla к OpenAI, сказал в своем выступлении:

Больше токенов может заставить модель думать лучше.

И подчеркнул, что производительность модели определяется не только размерами параметров.

Например, шкала параметров LLaMA намного меньше, чем у GPT-3 (65B против 175B), но поскольку она использует больше токенов для обучения (1,4T против 300B), LLaMA более мощная.

А благодаря прямому влиянию на производительность модели токен также является стандартом выставления счетов для моделей ИИ.

В качестве примера возьмем стандарт ценообразования OpenAI.Они выставляют счет в единицах токенов 1K.Разные модели и разные типы токенов имеют разные цены.

Короче говоря, войдя в ворота области больших моделей ИИ, вы обнаружите, что токен — это неизбежная точка знаний.

Ну, это даже породило символическую литературу...

Однако стоит отметить, что токен должен быть переведен в китайском мире, еще не до конца определено.

Дословный перевод слова «токен» всегда немного странный.

GPT-4 считает, что лучше называть это «элемент слова» или «токен», как вы думаете?

Справочная ссылка: [1] [2] [3]

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить