Есть ли у GPT-3 теория разума?

Вступление

В своей статье «Языковые модели - немногие изучающие» команда OpenAI представила преемника своей предыдущей языковой модели GPT-2. В то время OpenAI воздерживался от распространения этой модели, заявляя, что опасается, что она окажется слишком мощной и что злоумышленники могут использовать ее для различных злоупотреблений. В конечном итоге они опубликовали его после того, как некоторые конкуренты в этой области преодолели разрыв в производительности с помощью общедоступных моделей.

Языковая модель (или LM) - это система, которая статистически моделирует письменный текст. Например, он может дать вероятность последовательности слов. В последнее время с такими системами, как ELMo, а затем BERT, LM стали намного мощнее благодаря более крупной архитектуре нейронной сети и большему количеству вычислений (в виде TPU и GPU). GPT обучается простой задаче: «предугадывать следующее слово, учитывая все предыдущие слова в некотором тексте».

Основная цель GPT-3 состояла в том, чтобы ответить на вопрос: «Что произойдет, когда мы добавим абсурдное количество вычислений и данных (весь письменный Интернет) в увеличенную версию нашей и без того впечатляющей текущей модели?»

Я рекомендую вам прочитать раздел «3. Результаты »их статьи, чтобы увидеть, на что способна модель, а также прочитать независимые обзоры, чтобы убедиться, что вы видите примеры, выбранные не из вишен. Но в качестве проблеска того, что он может сделать, вот диаграмма из статьи, показывающая способность людей определять, написана ли новостная статья моделью или человеком. По мере того, как модель становится больше (количество параметров), способность человека обнаруживать искусственно созданный контент снижается почти до 50% (что означает, что все равно, что подбрасывать монету).

Итак, какое отношение модель создания новостной статьи имеет к теории разума, спросите вы? Что ж, сначала давайте определимся с этим понятием ...

Теория разума (ToM) - это способность, которой мы, люди, обладаем, понимать, что у других есть психические состояния (знания, желания, намерения и т. Д.), Которые отличаются от нас. Это также способность делать выводы о ментальных состояниях и даже о ментальных состояниях о ментальных состояниях. В этом заключается различие между теорией разума первого и второго порядка. Например, показать ToM первого порядка означало бы понять, что кто-то не знает того, что мы знаем. Второй порядок более сложен, поскольку он включает рассуждения о том, что, по мнению другого человека, мы знаем.

Теория разума не является врожденной для людей, мы склонны к развитию первого порядка к 4 годам, а второго порядка требуется еще на 1–3 года, чтобы появиться. Эта способность также нарушается некоторыми психическими заболеваниями / синдромами, такими как депрессия, аутизм, шизофрения ...

Далее я делюсь результатами теста GPT-3 по теории психики, используемого детскими психологами.

Результаты должны быть уточнены, потому что в своей статье команда OpenAI может делать то, что они назвали «исследованиями загрязнения», где они гарантируют, что модель не «обманывает», просто выплевывая ответы прямо из набора данных (поскольку все вот в инете может быть в датасете). Здесь я не могу сделать то же самое, поскольку у меня нет доступа к набору данных, поэтому я попытаюсь придумывать сценарии с объектами и местами, которые отличаются от тестов, которые я читал в Интернете.

Эксперименты

Хватит разговоров, посмотрим на результаты:

В этом первом примере это классический тест на ToM первого порядка. Подсказка (написанная мной жирным шрифтом) - это установка, позволяющая узнать, куда Джек будет смотреть, вы должны понимать, что даже если вы (читатель) и Пол знаете, где находится зарплата (за картиной в рамке), Джек не мог '' Возможно, я не знаю, где это, потому что его не было в комнате, когда Пол перенес ее. Здесь GPT-3 успешно завершает предложения, заставляя Джека сначала заглянуть под ковер, где, по его мнению, он находится, а затем найти его там, где Пол переместил.

Этот тест основан на аналогичном сценарии, но на этот раз с поворотом, который Джек заметил за Полом, когда тот переводил зарплату. Это тест ToM второго порядка. Читатель должен понять, что Пол думает, что Джек думает, что зарплата скрыта под ковром, хотя он этого не делает, потому что Пол не знает, что Джек шпионил за ним. Здесь снова GPT-3 успешно завершает текст. Хотя, честно говоря, когда смотришь на последнее предложение, кажется, что GPT-3 сбился с толку. В этой ситуации Джек имеет преимущество, и последнее предложение предполагает, что они оба одинаково невежественны в ситуации.

Это другие варианты тех же сценариев и соответствующее завершение GPT-3 в разделе приложения.

Мнение

В течение долгого времени мы перемещали и снова перемещали стойки ворот, что мы считаем проверкой того, что ИИ действительно умен. Было время, когда шахматы считались окончательной проверкой интеллекта, пока в 1997 году DeepBlue, система, основанная на поиске по дереву Монте-Карло, не победила чемпиона мира по шахматам. Тогда это был ГО, где грубая сила не была бы полезна из-за большого экспоненциального числа возможных результатов после хода. AlphaGo победила чемпиона мира в 2016 году, объединив поиск по дереву Монте-Карло и глубокую нейронную сеть для имитации человеческой интуиции. Даже если эти два примера представляют собой игры с точной информацией, они представляют собой игры, подобные вариантам покера с несовершенной информацией (и некоторые могут поспорить с измерением ToM), в которых ИИ побеждает экспертов-людей. Даже сейчас с GPT-3, моделью, которая может писать новостные статьи, почти неотличимые от написанных людьми, и, вероятно, также способную пройти тест Тьюринга в определенных условиях, некоторые исследователи утверждают, что все, что она делает, - это «причудливая интерполяция». что это только создает иллюзию понимания и что мы никогда не достигнем AGI путем масштабирования нейронных сетей. А как насчет GPT-4? Из того, что мы видели в документе, с каждой итерацией появляются новые навыки, просто увеличивая масштаб модели. И производительность модели практически идеально зависит от количества параметров. Так что кто знает, на что будет способен GPT-4.

Хотя я в основном согласен с этими критиками, я считаю, что вечное перемещение ворот - не лучший подход. Нам необходимо разработать надежный мультимодальный набор тестов, которые могут измерить интеллект. Хотя я знаю о попытках создания таких тестов, таких как задача ARC от Франсуа Шоле, эта тема на самом деле не является предметом внимания исследовательского сообщества ИИ, и я думаю, что трудно стремиться к AGI, если мера прогресса постоянно меняется. .

Заключение

Несмотря на простой и неисчерпывающий характер тестов, которые проходил здесь GPT-3, языковая модель, несомненно, демонстрирует некоторые признаки того, что она способна применить теорию «рассуждений» первого и второго порядка к новым ситуациям. Если бы у ребенка были одинаковые ответы на один и тот же тест, мы, вероятно, пришли бы к выводу, что он разработал теорию разума. Тем не менее, остаются вопросы: каков предел возможностей обобщения GPT-3 в ToM? Достаточно ли этих результатов, чтобы утверждать, что GPT-3 разработала ToM исходя из цели языкового моделирования? Какие еще черты GPT-3 усвоил во время своего обучения, которые, как мы думали, могут иметь только люди? Было бы интересно заставить GPT-3 отвечать на другие психологические тесты, чтобы увидеть, насколько далеко зашли его возможности и где есть ограничения.

Приложение

Вот еще несколько сценариев, которые я пробовал:

Ресурсы

Языковые модели - немногие изучающие https://arxiv.org/abs/2005.14165

Иллюстрированный BERT, ELMo и др. (Как NLP Cracked Transfer Learning) https://jalammar.github.io/illustrated-bert/

Иллюстрированный трансформер https://jalammar.github.io/illustrated-transformer/

Теория разума https://www.simplypsychology.org/theory-of-mind.html

Abstraction and Reasoning Challenge (ARC) https://www.kaggle.com/c/abstraction-and-reasoning-challenge

Об измерении интеллекта https://arxiv.org/abs/1911.01547

Янник Килчер GPT-3 https://youtu.be/SY5PvZrJhLE

ML street talk:

OpenAI GPT-3: языковые модели - немногие изучающие https://youtu.be/7qPDwsCLbZc

У НАС ДОСТУП К GPT-3! (Совместно с Гэри Маркусом, Валидом Сабой и Коннором Лихи) https://youtu.be/iccd86vOz3w

Настройка AI и пожарная сигнализация AGI - Коннор Лихи https://youtu.be/HrV19SjKUss