Важным аспектом получения удовольствия от компьютерных игр является ощущение того, что вы являетесь частью игры и ее сюжетной линии. Чувство погружения очень важно для стимуляции эмоций, и чем больше вы испытываете этих эмоций, тем больше удовольствия вы получаете от игры. Хотя современные игры предлагают некоторый уровень погружения с отличными визуальными и звуковыми эффектами, это все же не то же самое, что вы сами присутствуете в этой игровой среде. Именно здесь я считаю, что добавление аудиовизуального клона себя в качестве игрового персонажа выведет иммерсивную игру на новый уровень. Как только вы устанавливаете связь с этим своим клоном в игре, это открывает перед сценаристами возможность стимулировать в вас все виды эмоций, что приводит к гораздо лучшему игровому опыту.

Идея погрузиться в игру не нова. Многие игры предлагают обширную настройку персонажа, которая позволяет вам контролировать внешний вид и поведение персонажа, но технология очень ограничена с точки зрения того, насколько близко она может сделать персонажа похожим на вас. Однако с помощью глубокого обучения можно улучшить как аудио, так и видео аспекты настройки этого персонажа. Имея в виду эту идею, я решил создать концепцию, чтобы увидеть, насколько хорошо современные методы глубокого обучения могут помочь нам в этом. Я попытался создать свой аудиовизуальный клон в игре FIFA 17 с помощью замечательных сетей автоэнкодера.

Визуальное клонирование

В моей предыдущей статье/видео я показал, как возможно визуальное клонирование с использованием сетей кодировщик-декодер и насколько они чертовски хороши в создании фотореалистичных лиц. Я не буду вдаваться в эту часть снова, поэтому не стесняйтесь проверять вышеупомянутую статью для более подробной информации. Я использовал ту же технику для создания своего лица в последующих результатах.

Клонирование аудио

Последовательное обучение с помощью Deep Neural Networks оказалось очень успешным в таких задачах, как преобразование текста в речь и машинный перевод. Таким образом, я хотел изучить возможность использования таких техник для создания моего голоса с учетом любого текста в письменном формате. В поисках создания своего аудиоклона я наткнулся на Lyrebird.

Это веб-приложение, которое может выучить ваш голос всего за несколько минут аудиозаписи. Я записал свой голос, диктуя около 30 предложений, которые появляются в письменном формате, и позволил модели потренироваться. Уже через несколько минут сеть была готова создать мой голос из любого текста, который я мог ввести. Результаты, пусть и не идеальные, меня поразили. Вы можете найти их в видео, которое я вставил ниже.

Аудио клонирование - под капотом

Хотя я не знаю, как работает технология Lyrebird, я подозреваю, что она использует автоэнкодер для преобразования текста в речь, подобно тому, как работают другие алгоритмы клонирования (например, Baidu’s Deep Voice 3).

Кодер сети последовательно принимает текстовое предложение в качестве входных данных и извлекает кодировку распределения фонем, появляющуюся в этом предложении. Он действует как классификатор слов, генерирующий распределение вероятностей по фонемам, выступающим в роли классов. Это распределение вероятностей представляет собой кодирование, которое обрабатывается декодером, выступающим в роли звукового синтезатора. Этот синтезатор обучается на вашем записанном голосе, поэтому он может преобразовывать любую кодировку, которую ему дали, в ваш голос. Довольно удивительно!

Применение этой технологии в играх

В конце концов, мы хотим использовать эту технологию с пользой (например, в играх). Я попытался создать аудиовизуальный клон самого себя в игре FIFA 17. Послематчевое интервью дает Джеймс Родригес, и я заменил лицо и голос игрока на свои, созданные с помощью сетей Autoencoder. Это хорошее небольшое доказательство концепции и дает представление о том, насколько мы близки к совершенствованию виртуального клонирования и как разработчики игр могут поддерживать эту технологию в реальном времени в ближайшем будущем.

Вы можете найти результаты на моем канале YouTube, с видео, встроенным ниже.

Другие варианты использования в играх

  1. Создание «на лету» клонов всех игроков/менеджеров в игре без предварительной записи кат-сцен с ними. В настоящее время в игре FIFA 18 есть только несколько избранных лиц и голосов, поскольку нет технологии для их создания на машине. Эта технология упростит разработчикам игр создание практически любого игрока или менеджера с реальным лицом и голосом в игре.
  2. Динамический комментарий в FIFA. Это означает отсутствие повторяющихся предложений внутриигровых комментаторов из года в год. Разработчики могут просто изменять текст и генерировать голоса Мартина Тайлера и Алана Смита, чтобы добавлять новые комментарии при каждой итерации игры.
  3. Играя за Антагониста в таких играх, как Far Cry. Я бы хотел, чтобы мой клон играл роль антагониста. Необходимость сделать выбор, убить моего персонажа или оставить его в живых, дает мне множество идей для потенциально отличных сюжетных линий.

Вывод

Хотя до совершенства или готовности к производству технологии еще несколько лет, я уверен, что в ближайшие несколько лет мы сможем запустить ее в играх в режиме реального времени. Применение глубокого обучения в игровой индустрии огромно, а машинное обучение — это будущее этой отрасли, в которое каждый издатель игр должен вложить значительные средства.

Примечание.Это репост статьи, первоначально опубликованной в направлении datascience в 2018 году.