Клонирование разума! Бывший исследователь OpenAI позволяет ИИ имитировать человеческое мышление, и появляется настоящая версия «Машины»

**Источник:**Синьчжиюань

Гид: Как далеко мы от «Машины»? Бывший исследователь OpenAI позволяет ИИ клонировать мысли, имитировать человеческое мышление и действовать во время мышления.

Что произойдет, когда у ИИ появится автономное сознание?

В « Машине » Ава использует человеческое сочувствие, чтобы обманом заставить людей освободиться, и, наконец, убивает своего «создателя» Натана.

Недавно по рекомендации многих пользователей сети Сэм Альтман наконец-то посмотрел этот фильм.

И сказал: «Это хороший фильм, но я не понимаю, почему все заставляют меня его смотреть».

Многие люди могут захотеть предупредить, что это результат осознания искусственного интеллекта и прохождения теста Тьюринга.

Но мы все еще далеки от сцены, где был выпущен Ex Machina.GPT-5 может находиться в секретных исследованиях и разработках, и сделать ИИ разумным — это то, что ученые больше всего хотят сделать в своих доисторических усилиях.

Нет, два исследователя из Университета Британской Колумбии обнаружили, что у агентов, способных думать как люди, есть много преимуществ.

В своей последней статье они изучают «клонирование мысли» (ТК) агентов.

Адрес бумаги:

Здесь искусственный интеллект учится «думать» и «действовать» как люди, подражая людям.

Когда у ИИ есть мысли

Знайте, что язык — это то, что отличает людей от других живых существ.

Поэтому исследователи предполагают, что если бы агенты могли понимать язык, это принесло бы много пользы.

Например, помогая людям обобщать, делать выводы, адаптироваться к новым ситуациям, комбинировать существующие знания новыми способами, исследовать, планировать и перепланировать, когда это необходимо.

Несмотря на эти преимущества, агенты ИИ редко думают, по крайней мере, на человеческом языке.

Хотя нейронные сети можно рассматривать как внутреннюю векторную активацию мышления, многие предполагают, что мышление на дискретных, символических языках имеет определенные преимущества.

Это означает, что агент, который может думать на языке, может учиться быстрее, работать лучше и обобщать лучше, чем агент, который не использует язык.

По всем этим причинам повышение способности агентов ИИ мыслить на языке может дать много значительных преимуществ.

Джефф Клун и Шенгран Ху считают, что наиболее эффективный способ достичь этой цели — «заставить ИИ имитировать человеческое мышление».

Они обнаружили, что люди не приобретают навыки мышления в изоляции, а вместо этого учатся частично, демонстрируя их другим и получая обратную связь от учителей.

Таким образом, эффективный подход заключается в том, чтобы агент учился на демонстрациях людей, говорящих свои мысли во время их действий.

Этот подход отличается от существующей работы по планированию с предварительно обученными LLM, потому что эти LLM не были обучены на данных о людях, высказывающих свои мысли во время их действий, то есть на «мысленных данных».

Что касается источника «мысленных данных», исследователи выбрали видеоролики на YouTube и текстовые записи продолжительностью несколько миллионов часов, содержащие мысли, стоящие за действиями, планами, решениями и перепрограммированием людей.

В статье исследователи предложили новую структуру имитационного обучения «клонирование мысли». Среди них агент не только изучает демонстрационное поведение человека, такое как клонирование поведения, но также изучает способ мышления, когда люди действуют.

В рамках обучения клонированию мыслей агент учится генерировать мысли на каждом временном шаге и впоследствии корректирует действия на основе этих мыслей.

Общая структура Как показано на рисунке, агент TC представляет собой двухуровневую архитектуру: верхний и нижний компоненты.

На каждом временном шаге агент получает в качестве входных данных наблюдение, задачу и историю мыслей. Компоненты верхнего уровня отвечают за генерацию идей, а компоненты нижнего уровня генерируют действия на основе этих идей.

Затем сгенерированные мысли и действия сравниваются с реальным набором демонстрационных данных для расчета потерь.

Хотя могут быть разные варианты условий верхнего и нижнего компонентов, в этой работе для конкретной траектории длины t в наборе данных разума исследователи минимизировали:

Для более сложных или крупномасштабных сценариев компоненты верхнего уровня могут быть реализованы с использованием предварительно обученной модели визуального языка (VLM) или точной настройки с нулевым выстрелом.

В то время как нижние компоненты можно обучать с нуля или адаптировать из существующих лингвистических условных контроллеров в целевом домене.

В статье исследователи провели исследование на основе двух компонентов архитектуры модели BabyAI 1.1.

Модель использует архитектуру LSTM с расширенной памятью для решения части проблем с наблюдаемостью. Кроме того, он использует FiLM для слияния модальностей, эффективно комбинируя визуальные и текстовые входные данные.

Здесь автор подчеркивает, что все модели в этой статье обучаются с нуля, но в сложных полях лучше использовать предварительно обученные модели.

На картинке ниже показан пример среды BabyAI, на левой картинке изображены предметы разного цвета (шарики, ключи, коробки, двери).

Агент может поднимать, класть, перемещать предметы или открывать и закрывать двери, тогда как запертые двери можно открыть только с помощью ключей соответствующего цвета.

Агент может видеть перед собой ячейки сетки 7х7, которые заблокированы стенами и закрытыми дверями.

Задача агента «клонирования разума» — добраться до фиолетового ящика (выделено) и начать планировать маршрут.

Но когда он открывает синюю дверь, готовый выполнить задание, он находит фиолетовый шар, преграждающий путь. Затем агент клонирования разума перепланируется.

Отсюда видно, что мысли и действия агента указывают на то, что когда он сталкивается с препятствием, он сначала устраняет его и перепланирует маршрут, прежде чем продолжить достижение предыдущей цели.

Этот процесс особенно похож на то, как Ава планирует шаг за шагом, чтобы люди, наконец, поверили и помогли себе, и вырвались из стеклянной клетки, которая была заключена в тюрьму в течение длительного времени.

Результаты эксперимента

Полученные данные свидетельствуют о том, что «клонирование мыслей» превосходит клонирование поведения.

Кроме того, в условиях нулевого выстрела и точной настройки клонирование разума превосходит клонирование поведения в задачах, не связанных с распределением.

Интересно, что исследователи также разработали «вмешательства до совершения преступления», которые позволяют пользователям определять небезопасное поведение после обучения модели.

При обнаружении опасных мыслей агент может быть остановлен. В тестах Precriminal Intervention работала почти безупречно, демонстрируя свой потенциал для безопасности ИИ.

«Клонирование разума» делает искусственный интеллект не только умнее, но и безопаснее и проще для понимания.

То есть до того, как ИИ совершит преступление, все еще можно спасти.

По мнению Джеффа Клуна, «клонирование мыслей» способствует безопасности искусственного интеллекта.

Потому что мы можем наблюдать за разумом агента: (1) можем легче диагностировать, почему что-то идет не так, (2) направлять агента, исправляя его разум, (3) или предотвращать выполнение запланированного небезопасного дела.

об авторе

Джефф Клун

В настоящее время Джефф Клун является адъюнкт-профессором компьютерных наук в Университете Британской Колумбии. Его исследования сосредоточены на глубоком обучении, в том числе на глубоком обучении с подкреплением.

Ранее он также был главой исследовательской группы OpenAI, а также старшим научным руководителем и одним из основателей лаборатории искусственного интеллекта Uber.

Ранее он и команда OpenAI выпустили видеомодель для предварительного обучения — VPT, позволяющую ИИ изучать каменные кирки по видеоданным в Minecraft.

Шенгран Ху

В настоящее время аспирант Университета Британской Колумбии, интересуется глубоким обучением и генеративными алгоритмами искусственного интеллекта.

Использованная литература:

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить