Новая модель генерирует фортепианный кавер на поп-песню: как это работает? как можно попробовать?

Кавер на фортепиано относится к каверу, в котором все музыкальные инструменты заменены только звуком фортепиано. Их много можно найти на ютубе, и они могут показаться почти тривиальными (спойлер: это не так).

Чтобы создать фортепианную обложку, человек должен распознать все музыкальные элементы в мелодии и переинтерпретировать ее, используя только фортепиано. Следовательно, нужны музыкальные навыки, а также творческий подход, чтобы воссоздать мелодию. Если человеку уже трудно, сможет ли ИИ добиться успеха?

Недавно вышла статья под названием POP2PIANO: ПОКОЛЕНИЕ КАВЕРОВ ДЛЯ ПИАНИНО НА ОСНОВЕ ПОП-АУДИО», которая намеревается сделать именно это. В этой статье мы обсудим это и как вы можете попробовать это

ИИ, который хотел сделать кавер на Леди Гагу.

На самом деле, как говорится в статье, такой вызов уже предпринимался. Идея состоит в том, чтобы извлечь треки различных инструментов из аудио и переставить их. Задача непростая, ведь на хороший кавер влияет и атмосфера, и стиль композитора.

Авторы начали с 300 часов синхронизированного набора данных каверов на фортепиано. По сути, вместо того, чтобы использовать сырую музыку, они брали оригинальные песни и фортепианные каверы. Они синхронизировали оригинальные песни с каверами, а затем разделили их на сегменты. Каверы были преобразованы в MIDI и уменьшены до восьмых нот. Всего они собрали на youtube 5989 каверов на пианино от 21 аранжировщика (тогда использовали только 4989 и 307 часов).

Модель по своей сути трансформер:

Архитектура модели Pop2Piano — T5-small [7], используемая для [9]. Это сеть Transformer со структурой кодер-декодер. Количество обучаемых параметров составляет около 59M. В отличие от [9], вместо абсолютного позиционного вложения используется относительное позиционное вложение исходного T5. Кроме того, обучаемый встраивающий слой используется для встраивания стиля аранжировки. — из оригинальной статьи (источник)

Как видно из рисунка, он состоит из энкодера и декодера.

И авторы представили пример вывода:

Хотя оригинальная песня по-прежнему сложна (состоящая из нескольких инструментов и вокальной партии), фортепианный аккомпанемент кажется правдоподобным. Мало того, что звучит правдоподобно, так еще и похоже на работу аранжировщика.

Более того, даже по субъективной оценке это выглядит правдоподобно (25 участников среди людей, не являющихся музыкантами). Участникам нужно было прослушать 10 секунд 25 песен и сравнить их с аранжировкой, сделанной человеком. Семьдесят процентов предпочли работу модели.

Вот видео, выпущенное авторами в качестве примера:

Также на сайте проекта можно протестировать другие песни и аранжировки (их можно найти здесь).

Авторы признают, что все еще существуют ограничения:

Мы понимаем, что в нашу модель можно внести некоторые улучшения. Например, Pop2Piano использует только четырехтактный звук для контекста ввода. Следовательно, такие функции, как контур мелодии или текстура аккомпанемента, менее постоянны при создании более четырех долей. Кроме того, квантование времени, основанное на долях восьмых нот, не позволяет модели создавать фортепианные каверы с другими ритмами, такими как триоли, шестнадцатые ноты и трели. — из оригинальной статьи (источник)

Как получить обложку для пианино

Авторы предоставили как Github, так и Google Colab.

Сначала вам нужно изменить среду выполнения (в меню выше выберите «Время выполнения»), затем выберите «Изменить тип среды выполнения» (в раскрывающемся меню выберите «ГП»). Как только это будет сделано, вам нужно запустить первый блок кода (CTRL+ENTER или нажать на маленький символ воспроизведения). Это может занять несколько минут, но как только это будет завершено, перейдите ко второму блоку.

Снова вы должны выполнить блок кода. Это должно занять около минуты

Этот блок также должен занять короткое время (зависит от вашего соединения, так как он загружает шаблон)

Этот блок позволяет выбрать аранжировщик. Вы можете выбрать в раскрывающемся меню, какой из композиторов вы предпочитаете (если вам нужны рекомендации, они показывают различия между различными композиторами на сайте проекта).

В этом блоке вы можете загрузить звуковую дорожку, для которой вы хотите создать фортепианную обложку (вы можете выбирать между аудио WAV и MP3, я использовал MP3, преобразованный из видео Youtube).

Запустите этот блок кода (это не должно занять много времени).

Вам нужно будет только запустить этот код, чтобы загрузить кавер на фортепиано (в формате MIDI). Вы найдете его в той же папке, где у вас был исходный трек.

Выводы

Предлагаемая модель позволяет после загрузки песни загрузить трек в формате MIDI (заметьте, он не синхронизируется с вокалом, как в примерах на сайте проекта). Я пробовал несколько песен, и это довольно хорошо работает с поп-песнями, но хуже с другими жанрами (например, если есть длинная последовательность ударных).

В целом результат интересный, особенно учитывая архитектуру и то, что количество параметров не очень большое (всего 50 миллионов параметров). Как мы видели, Microsoft также запустила модель, генерирующую музыку, и Google инвестирует в ту же область. Кажется, что после изображений музыка — это следующий рубеж. Что вы думаете? Ты пробовал это? Дай мне знать в комментариях.

Если вам было интересно:

Вы можете найти другие мои статьи, вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи, и вы также можете связаться со мной или связаться со мной в LinkedIn. Спасибо за вашу поддержку!

Вот ссылка на мой репозиторий GitHub, где я планирую собирать код и множество ресурсов, связанных с машинным обучением, искусственным интеллектом и многим другим.



Или не стесняйтесь проверить некоторые из моих других статей на Medium: