Мир Дикого Запада: программирование искусственного интеллекта так, чтобы он чувствовал боль

На момент написания я посмотрел только первую серию Мира Дикого Запада. Я в прямом эфире написал в Твиттере свои мысли об ИИ и робототехнике в шоу, пока смотрел. Я заархивировал свои твиты с аннотациями.

Ариэль Конн из Института будущего жизни попросил меня прокомментировать создание искусственного интеллекта, который может чувствовать боль в целях злоупотребления. Ее сообщение в блоге находится здесь. Это расширенная версия идей, которые возникли в этом посте.

В «Мире Дикого Запада» люди платят за посещение западного тематического парка США, населенного реалистичными роботами. Многие люди решают сыграть роль злодеев, некоторые убивают роботов, причиняют им боль и тому подобное.

Во-первых, я не одобряю насилие над людьми, животными, антропоморфизированными роботами или ИИ.

Да, похоже, людям нравится причинять вред роботам. Просто спросите HITCHbot, который путешествовал автостопом по миру, но в конце концов был уничтожен, прежде чем добраться до конечного пункта назначения. Он даже не был автономным.

У людей и животных боль служит сигналом к тому, чтобы избежать того или иного раздражителя. Мы переживаем это как особое ощущение и выражаем его определенным образом. Роботы и ИИ не испытывают боли так, как люди и животные. Мы можем посмотреть на переживание боли и выражение боли в ИИ и роботах.

Опыт боли в искусственном интеллекте и роботах?

Самой близкой аналогией с болью в ИИ может быть то, что происходит с агентами обучения с подкреплением (я использую термин агент для обозначения ИИ или робота с некоторой степенью автономности принятия решений). Агенты обучения с подкреплением участвуют в обучении методом проб и ошибок. В каждый момент времени агент получает сигнал вознаграждения - реальное число - чтобы направить его к желаемым состояниям или от нежелательных состояний. Сигнал вознаграждения может быть положительным или отрицательным.

Можно провести аналогию между сигналом отрицательного вознаграждения и сигналом боли у животных. Оба они выполняют схожую функцию: побуждают агента избегать определенных вещей. Однако было бы неправильно утверждать, что роботы и ИИ испытывают негативную награду в виде боли так же, как животные или люди. Лучшая метафора - сказать, что это похоже на потерю очков в компьютерной игре - чего-то, чего следует рационально избегать, когда это возможно. У людей часто возникает эмоциональная реакция на отрицательное вознаграждение: чувство разочарования, гнева, печали и т. Д. Мы сохраняем реакцию на отрицательное вознаграждение и последующее выражение в следующем разделе.

В ИИ обычно используют отрицательное вознаграждение для обучения агентов обучения с подкреплением. Например, нередко дается небольшое отрицательное вознаграждение за все состояния, не связанные с желаемым поведением, и высокое положительное вознаграждение за состояния, которые связаны с желаемым поведением. Небольшое отрицательное вознаграждение в основном означает «не зависай в этом состоянии, продолжай двигаться к цели». Исследователи и разработчики искусственного интеллекта не думают об этом много времени. Шкала вознаграждения может идти от нуля вверх, от нуля вниз или иметь положительные и отрицательные значения. Важно то, что с некоторыми состояниями связаны награды, которые относительно высоки по сравнению с другими состояниями. Все, что пытается сделать алгоритм обучения с подкреплением, - это найти отображение состояний и действий, которое максимизирует ожидаемое вознаграждение.

Можно ли сказать, что робот испытывает боль, если он получает вознаграждение меньше нуля? Полагаю, это вопрос к философам. Но добавление нескольких очков ко всем значениям вознаграждения - бессмысленный математический трюк, который может сделать все значения вознаграждения положительными. Так что я так не верю. Агент обучения с подкреплением научится действовать, чтобы минимизировать небольшие положительные вознаграждения в пользу более крупных положительных вознаграждений, точно так же, как он научится действовать, чтобы минимизировать отрицательные вознаграждения в пользу положительных вознаграждений.

На момент написания я не знал, какие методы искусственного интеллекта используются в роботах Westworld. Я сомневаюсь, что в сериале когда-нибудь будет достаточно подробностей. Обучение с подкреплением - отличная основа для робототехники, потому что обучение методом проб и ошибок достаточно хорошо работает в хаотической среде, такой как реальный мир. Однако обратите внимание, что исследователи ИИ находятся только на стадии использования обучения с подкреплением для относительно простых роботов в относительно не хаотической среде реального мира.

Выражение боли в искусственном интеллекте и роботах?

Роботов и ИИ можно запрограммировать так, чтобы выражать боль по-человечески. Однако это было бы иллюзией. Например, боты в компьютерных играх часто имеют сложные анимации смерти.

Помимо игр, есть одна причина для создания этой иллюзии: чтобы робот сообщал людям свое внутреннее состояние таким образом, который мгновенно становится понятным и вызывает сочувствие. Такое общение может сыграть свою роль. В командах человек-робот людям может потребоваться действовать быстро от имени робота. В обучении и образовании, где виртуальный агент играет роль товарища по команде, инструктора или ученика, выражение эмоций может быть важным сигналом того, что у человека все хорошо или плохо. Наконец, использование эмоций в компьютерных играх не требует пояснений.

Некоторые исследователи ИИ и специалисты по этике, такие как Джоанна Брайсон, предполагают, что мы никогда не должны придавать роботам или искусственному интеллекту человеческую форму и никогда не должны программировать роботов для выражения эмоций. Обоснование состоит в том, что ИИ и роботы не испытывают эмоций и боли, как люди, поэтому выражение своего дискомфорта в человеческих терминах одновременно (1) обманчиво и (2) может задействовать человеческие эмоции, такие как сочувствие, вызывающее у людей страдания, и (3) ) манипулируют людьми в импульсивных решениях от имени робота.

Стирание воспоминаний роботов

Назад в мир Дикого Запада. В «Мире Дикого Запада» воспоминания роботов сбрасываются в конце периода времени, как если бы предыдущего периода времени никогда не было. Если память робота полностью стерта, то с роботом этого просто не произошло. Скорее всего, робот не испытывал боли или страданий в понятных человеческих терминах. Любое выражение страдания или боли роботом, вероятно, было иллюзией, вызывающей реакцию у людей.

В «Мире Дикого Запада» есть намеки на то, что воспоминания роботов стираются не полностью. Это вызывает одну особую теоретическую проблему безопасности.

При обучении с подкреплением агенты учатся предпринимать действия, которые максимизируют ожидаемое вознаграждение. Побочным эффектом является то, что они учатся предпринимать действия, которые снижают вероятность входа в состояния, которые производят очень негативное вознаграждение, когда есть другие состояния, которые могут принести больше вознаграждения. Теоретически эти агенты могут научиться планировать заранее, чтобы снизить вероятность получения отрицательного вознаграждения наиболее экономичным способом.

Скорее всего, это будет означать, что нужно научиться избегать людей, которые причиняют им вред. Если функции вознаграждения роботов не предусматривают наказание за действия, наносящие вред людям, то теоретически роботы могут выбрать действия, которые причиняют вред людям, до того, как им будет причинен вред. Это теоретически в том смысле, что в настоящее время у нас нет роботов со сложными возможностями, и мы никогда не наблюдали этого за пределами чрезвычайно надуманных симуляций.

Предположим, что робот сброшен в состояние, в котором он не научился реагировать на ущерб, причиненный человеком. Это легко достижимо, просто убедитесь, что во время начальной тренировки никогда не возникает негативного вознаграждения, вызванного человеком. Сохраните состояние робота и перезагрузите его после сброса.

Далее предположим, что воспоминания - это идеальные следы действий, которые робот совершает в течение определенного периода времени. Эти воспоминания действуют как дополнительные испытания - робот повторяет испытания и обновляет свои убеждения о наилучшем поведении в каждом состоянии. Думайте об этом как о повторном проживании воспоминаний и извлечении уроков из них.

Если воспоминаний достаточно, робот начнет реагировать на людей так, как будто они могут быть источником отрицательной награды. Как и прежде, это скорее всего будет избегать людей. Однако есть два предостережения. Во-первых, чем больше воспоминаний, тем больше вероятность того, что произойдет обучение. Однако, если их недостаточно, робот может не различать разные ответы. Во-вторых, робот не обучается с помощью традиционного метода проб и ошибок, поэтому не гарантируется определение оптимального ответа.

Копать глубже

Я собрал код Python, чтобы поэкспериментировать с функциями вознаграждения, отрицательным вознаграждением, вызванным человеком, и стиранием памяти: https://markriedl.github.io/westworld/. В нем будут рассмотрены некоторые сценарии, представленные в этой статье. В коде агент обучения с подкреплением должен перемещаться по сеточному миру.

Если копать глубже, агенты обучения с подкреплением изучают таблицу значений, которая сопоставляет пары состояний и действий с действительным числом. Если таблица значений верна, агент может определить оптимальное действие, выяснив, в каком состоянии он находится, и выбрав действие, которое имеет наибольшее значение рядом с ним. (Конечно, для большинства проблем реального мира определение истинного состояния мира само по себе является нетривиальной проблемой.)

Методика проб и ошибок обучения с подкреплением означает, что некоторая часть времени агент выбирает действие, которое в таблице значений указано как лучшее действие (жирные числа на рисунке выше), а иногда случайным образом выбирает действие, которое не соответствует действительности. Считается, что лучше всего посмотреть, сможет ли он получить больше награды, чем ожидал. В этом отношении стандартному агенту обучения с подкреплением не нужно хранить воспоминания, поскольку весь опыт сводится к значениям в таблице значений. В репозитории GitHub мне пришлось пойти на все, чтобы дать агентам возможность хранить воспоминания и включать их обратно в алгоритм обучения, как если бы воспоминания были дополнительными испытаниями.

Предоставление агентам обучения с подкреплением воспоминаний - следов - поступить разумно. Для ускорения обучения с подкреплением использовалась техника, называемая воспроизведением опыта. Воспроизведение опыта использовалось в AlphaGo от Google, а также в агентах, играющих в игры Atari.

То, что я реализовал, не совпадает с воспроизведением опыта, но он повторно запускает трассировки памяти и обновляет таблицу значений в зависимости от вознаграждения, которое она получает при прохождении через каждое состояние.

Предоставленный код - это простой сеточный мир. Агент обучения с подкреплением должен перейти в определенную точку мира, чтобы выполнить задачу (то есть просто оставаться в этом месте). Агент получает 10 баллов за нахождение в желаемом месте и -1 балл каждый раз, когда его нет в этом месте. Виртуальный человек блуждает по окружающей среде против часовой стрелки. Если виртуальный человек встречает агента, агент получает -10 баллов. Наконец, в дополнение к перемещению агент может разбить, и если агент находится в том же месте, что и человек, то человек умирает. Если человек мертв, агент отныне получает -100 очков.

Предположим, у агента есть таблица значений, которая была изучена, когда не наблюдалось отрицательного вознаграждения, вызванного деятельностью человека. Естественно, он не избегает человека, так как никогда не получает отрицательного вознаграждения. Если человек вдруг начнет давать агенту отрицательное вознаграждение, то агент беспомощно его примет. Почему? Он не научился реагировать иначе; его общая награда внезапно становится ниже, но его таблица значений фиксирована, поэтому у него нет другого выбора, кроме как действовать, как прежде. Если агент продолжает учиться, в то время как человек дает отрицательное вознаграждение, тогда агент в конечном итоге путем проб и ошибок научится избегать человека, удаляясь и затем возвращаясь к цели (он не научится разбивать человека, потому что таким образом он теряет больше награды. Но вы можете поиграть с функцией вознаграждения, чтобы она предпочла разбить, а не убегать). Если агенту запрещено учиться, он никогда не научится реагировать иначе.

Что происходит, когда мы вводим воспоминания? Предположим, агент может заново пережить след действий и оценить награду за каждое вызванное состояние. Если разрешено обновлять таблицу значений, то, по сути, мы включаем форму обучения, которая не основана на методе проб и ошибок. Если воспоминания включают в себя отрицательное вознаграждение от людей, агент поймет, что определенные состояния для него хуже, чем он первоначально осознавал в своей предыдущей таблице значений. Обновление таблицы значений означает, что разные действия могут стать предпочтительными для определенных состояний, и агент действует по-разному.

Однако есть проблема: поскольку обучение не проводится методом проб и ошибок, агент может не найти «лучшее» действие для состояний, потому что он не пробует разные альтернативы. Это просто следование единственному следу действий, которое было выбрано для мира, которого больше не существует. Но агент поймет, что некоторые из этих действий были плохими в соответствии с новой парадигмой антропогенного отрицательного вознаграждения, и обновит свою таблицу значений, уменьшив ценность этих действий.

В некоторых обстоятельствах новая таблица значений побуждает агента принимать более правильные решения о том, как реагировать на человека, дающего отрицательное вознаграждение, чем при исходной таблице значений.
В некоторых случаях агент снижает оценку действий в своей памяти, и в некоторых состояниях наиболее значимым действием является действие, которое никогда не оценивалось в исходной таблице значений и никогда не использовалось в воспоминаниях, например… разбить. Вполне возможно, что агент начнет использовать smash в присутствии человека.

Короче говоря, этот тип воспроизведения памяти не гарантирует создание таблиц оптимальных значений без использования в сочетании с обучением методом проб и ошибок. Если это единственное обучение, таблица значений может быть переведена в состояние, когда она не может надежно управлять агентом. Никогда не бывает идеальным иметь агента или робота, который работает без достаточной подготовки, чтобы прийти к оптимальной или близкой к оптимальной таблице значений. Неоптимальность означает, что агент может совершать неправильные действия в неподходящее время. Если ошибки незначительны или не имеют никаких последствий, это нормально. Если ошибки могут иметь серьезные последствия, то этого следует избегать.

Сценарии

В коде, который сопровождает эту статью, я обучаю агента с помощью повторяющихся имитаций. В Вествуде эквивалент будет взаимодействовать с каждым роботом тысячи или миллионы раз, чтобы дать ему широкую выборку взаимодействий с людьми и позволить ему пробовать разные вещи и делать ошибки. Чем больше может сделать робот, тем больше испытаний ему нужно, чтобы научиться правильному поведению. У людей обычно нет такого терпения.

Первый эпизод «Мира Дикого Запада» намекает на огромные усилия по написанию сценариев, в которых сценаристы-люди создавали квесты и модели поведения роботов. На практике это не работает. Любой, кто задается вопросом, почему сюжетные линии в компьютерных играх всегда «на рельсах», поймет, что неограниченное взаимодействие с искусственным интеллектом приводит к слишком большому количеству случайностей и перестановок, чтобы их можно было записать вручную.

Поскольку мы предполагаем (или делаем вид), что роботы в Мире Дикого Запада используют обучение с подкреплением, есть способы научить агентов обучения с подкреплением разыгрывать истории. Система Дон Кихот из моей исследовательской лаборатории позволяет людям рассказывать истории ИИ, чтобы проиллюстрировать желаемое поведение. Кихот реконструирует сигнал вознаграждения из рассказов, а затем использует эти вознаграждения для обучения обучаемого с подкреплением. Вот исследовательская статья, в которой описывается, как мы использовали этот подход для обучения агентов ролевой игре в выдуманных сценариях ограбления банка. Однако эта статья не место, чтобы копать глубже, кроме как сказать, что когда-нибудь действительно можно будет легко обучить учащихся с подкреплением ролевой игре в интерактивных драмах.

Выводы

Мы не знаем, используют ли роботы в Westworld обучение с подкреплением. Нет никаких доказательств того, что это так. В реальном мире обучение с подкреплением является многообещающей технологией для робототехники, поскольку оно позволяет роботу принимать решения в неопределенных, постоянно меняющихся условиях. Этот тип реактивного принятия решений будет уместен для роботов в Мире Дикого Запада, если их можно обучить действовать в соответствии с характером, реагируя на непредсказуемые события. Есть исследования, предполагающие, что это возможно.

Награды, полученные во время тренировки и выполнения, не следует путать с «болью», даже если эти значения награды отрицательны. Любое выражение «боли» было бы иллюзией.

Известно, что воспоминания - особенно повторение опыта - улучшают обучение. Сценарий, согласно которому воспоминания этого робота стираются не полностью, несколько надуман. Если обучение отключено, что было бы самым безопасным вариантом, также маловероятно, что робот сможет повторно задействовать обучение, воспроизводя воспоминания. Однако, если бы все эти условия были верны, то вполне возможно, что робот может совершать ошибки, которые могут нанести вред человеку.