Бумага и значение, объяснение

Введение

25 января 2023 года в презентации PowerPoint я описал создание длинных последовательностей высококачественной музыки как одну из основных задач в области звукового ИИ, которую предстоит решить в ближайшем будущем. Через день мои слайды устарели.

MusicLM, разработанный Google Research, генерирует минутную высококачественную музыку во всех стилях и жанрах на основе простого текстового запроса на естественном человеческом языке.

Лучше всего получить собственное впечатление и просмотреть демонстрационную страницу с большим количеством музыкальных примеров. Если вас интересуют подробности, не стесняйтесь также ознакомиться с исследовательской работой, хотя в этой статье также будут затронуты все актуальные темы.

Итак, что же делает MusicLM таким технологическим прорывом? Какие проблемы он решает, которые беспокоили исследователей ИИ в течение последнего десятилетия? И почему я до сих пор считаю MusicLM переходной технологией — мостом в другой мир создания музыки? Здесь вы найдете ответы на эти и другие вопросы, не утомляя вас математикой или слишком большим количеством технического жаргона.

Задача 1: Преобразование текста в музыку

MusicLM использует недавно выпущенную модель, которая помещает музыку и текст на одну и ту же «карту». Подобно вычислению расстояния от Лондона до Стокгольма, MusicLM может вычислять «сходство» между парами аудио-текста.

Музыку трудно описать

Преобразование текста в музыку — сложная задача, потому что музыка — это многогранная форма искусства, которая включает в себя не только мелодию и гармонию музыки, но также ритм, темп, тембр и многое другое. Чтобы преобразовать текст в музыку, модель машинного обучения должна иметь возможность понимать и интерпретировать смысл текста, а затем использовать это понимание для создания музыкальной композиции, которая точно представляет текст.

Еще одна проблема с переводом текста в музыку заключается в том, что музыка — это очень субъективная форма искусства. То, что один человек считает «счастливой» музыкой, может показаться «горько-сладкой» или «мирной» для другого. Это затрудняет для модели машинного обучения создание композиции, которая будет повсеместно считаться «счастливой». Хотя музыку часто (на мой взгляд, ошибочно) называют универсальным языком, объективный перевод с разговорного языка на музыку кажется невозможным.

Подход MusicLM

Имея это в виду, вас может удивить, что перевод текста в музыку не является основным вкладом MusicLM. Модели машинного обучения, которые связывают текст с аудио, изображения с текстом или аудио с изображениями (мы называем их кросс-модальными моделями), за последние 2–3 года довольно утвердились в научных кругах и промышленности. Безусловно, самым известным примером кросс-модальной модели является DALL-E 2, который генерирует изображения высокого разрешения на основе вводимого текста.

В MusicLM исследователи не тренировали кросс-модальную часть самостоятельно. Вместо этого они используют предварительно обученную модель MuLan, выпущенную в 2022 году (см. статью здесь). МуЛан обучали связывать музыку с текстом с помощью метода, называемого контрастным обучением. Здесь обучающие данные обычно состоят из тысяч музыкальных пар со связанным текстом, описывающим музыку. Цель обучения состоит в том, чтобы при представлении любой пары музыки и текста (не обязательно связанных) модель могла определить, принадлежит ли текст музыке или нет. Как только это будет достигнуто, модель сможет вычислить степень сходства между парами аудио-аудио, текст-аудио или текст-текст.

Задача 2: сокращение времени и ресурсов для создания музыки

MusicLM использует современный инструмент сжатия звука, чтобы значительно сократить объем информации, необходимой для создания высококачественных аудиосигналов.

На этом этапе модель может определить, соответствует ли создаваемая ею музыка введенному тексту. Тем не менее, есть некоторые проблемы, связанные с самим процессом генерации звука, главная из которых — время и ресурсы, необходимые для создания музыкального произведения.

Проблема размерности

Хотя музыка легко воспринимается нашим человеческим ухом, это довольно сложный тип данных для специалистов по обработке и анализу данных. Обычная поп-песня (3:30 мин.) в качестве CD хранится в компьютере в виде вектора почти из 10 миллионов чисел. Для сравнения, изображение в качестве HD (1280 x 720 пикселей) не достигает даже 1 миллиона значений для хранения и обработки. За последние пару лет было разработано множество методов сжатия музыки в менее затратный с вычислительной точки зрения формат при сохранении высокого качества звука.

При традиционных подходах для создания 1 минуты музыки с качеством CD (44 100 Гц) потребовалась бы модель машинного обучения для генерации около 2,6 миллионов чисел — одно за другим. Если генерация одного числа занимает всего 0,01 секунды, этот процесс все равно займет более 7 часов. Нетрудно представить, что если бы вы попросили сочинить и записать музыку профессионального музыканта, он бы решил эту задачу быстрее. Ключевой момент: до сих пор существовал огромный компромисс между быстрой генерацией звука и качеством вывода.

Предыдущие подходы

Было предпринято много попыток решить эту проблему. Один довольно новый подход заключается в косвенной генерации звука путем создания сначала изображения аудиосигнала (например, спектрограммы), а затем преобразования этого изображения в реальный звук (как это делается в Riffusion). Другой подход заключается в том, чтобы избежать генерирования звука напрямую, создав вместо этого символическое представление. Наиболее широко известным символическим представлением музыки являются ноты. Как вы знаете, нотный лист — это не настоящее звуковое событие, но музыкант может воплотить его в одно из них. В прошлом мы наблюдали немалый успех моделей машинного обучения, генерирующих музыку в символическом формате MIDI (см., например, Chamber Ensemble Generator компании Magenta). Однако у обоих этих методов есть свои недостатки, и они существуют в основном потому, что создать настоящую вещь очень сложно.

Подход MusicLM

Наконец, давайте обсудим подход, который использует MusicLM. Вместо создания прокси (например, изображения или MIDI) для аудио MusicLM применяет современный алгоритм сжатия звука под названием SoundStream, опубликованный в 2021 году. С помощью SoundStream модель способна генерировать звук со скоростью 24 часа. кГц (24 000 чисел в секунду звука), в то время как на самом деле вычисляется только 600 чисел. Преобразование от 600 значений в секунду до 24 000 значений в секунду обрабатывается SoundStream. Другими словами, модель должна генерировать на 97,5% меньше информации при достижении примерно того же результата. Хотя в прошлом были и другие замечательные алгоритмы сжатия, SoundStream значительно превосходит их все.

Задача 3: Создание последовательной и аутентичной музыки

Отделив задачу связывания текста с музыкой от фактической части генерации звука, MusicLM можно было обучать сотням тысяч часов на немаркированных аудиоданных. Это способствовало богатству создаваемой им музыки.

Терминология

Безусловно, это предмет споров о том, что такое «последовательная» и «аутентичная» музыка на самом деле. Однако в контексте музыки, созданной ИИ, можно утверждать, что тот факт, что мы даже рассматриваем возможность назвать композиции MusicLM «связными» и «аутентичными», уже говорит о многом. В качестве расплывчатого рабочего определения скажем, что связная музыка имеет основную структуру, которая воспроизводится через различные разделы и/или посредством повторения, изменения или цитирования музыкальных идей. Под «аутентичным» я подразумеваю, что музыкальное произведение, созданное ИИ, представляет себя таким образом, что это может убедить нас в том, что человек мог целенаправленно создать его.

Музыкальная «Память»

Создание связной музыки не является прорывом MusicLM. Еще в 2018 году Music Transformer от Google Magenta мог создавать MIDI-музыку с четкими мелодическими и гармоническими последовательностями, в которых музыкальные идеи повторялись или изменялись. Music Transformer может отслеживать музыкальные события, которые произошли более чем на 45 секунд в прошлом. Однако, поскольку необработанный звук намного сложнее, чем символическое представление MIDI, такая большая память долгое время была недостижима для моделей, генерирующих необработанный звук. MusicLM имеет память на 30 секунд, что больше, чем у любой известной мне сопоставимой модели (хотя здесь я могу ошибаться — выпущено так много моделей…). Хотя это не позволяет MusicLM сочинять эпические 15-минутные шедевры, этого достаточно для поддержания основных музыкальных структур, таких как темп, ритм, гармония и тембр, в течение длительного периода времени.

Аутентичные выходы

Что еще более важно, на мой взгляд, так это то, что музыка, написанная MusicLM, звучит удивительно аутентично. Техническим объяснением этого может быть то, что MusicLM нашел умный способ обучить модель преобразования текста в музыку на тысячах часов немаркированной музыки, то есть музыки без текстовых описаний. Используя предварительно обученную модель «MuLan» для связывания текста с музыкой, они разработали архитектуру своей модели так, чтобы она могла изучать часть генерации звука отдельно от немаркированных аудиоданных. Основное предположение состоит в том, что связать музыку с текстом не так сложно, как создать аутентичную музыку. Этот «трюк» переосмысления проблемы и адаптации архитектуры к ней может стать ключевым фактором успеха MusicLM.

В некотором смысле результаты говорят сами за себя. Впервые модель ИИ не создает что-то, что является либо промежуточным продуктом где-то между композицией и музыкальным произведением, либо чем-то, что мог бы отличить от музыки, созданной человеком, любой 4-летний ребенок. На этот раз это действительно похоже на что-то другое. Это похоже на то, как я впервые прочитал текст, написанный GPT-3. Как и в первый раз, когда я увидел изображение, созданное DALL-E-2. MusicLM может стать именно ТОЙ прорывной моделью искусственного интеллекта, которая войдет в историю.

Недостатки MusicLM и перспективы на будущее

Количественные недостатки

Несмотря на все эти удивительные качества MusicLM, модель отнюдь не идеальна. Я бы даже сказал, что по сравнению с такими моделями, как GPT-3 для текста или DALL-E-2 для изображений, MusicLM кажется гораздо более ограниченным. Одна из причин заключается в том, что сгенерированная музыка считается высококачественной только сообществом машинного обучения. Без эффективного способа повышать частоту дискретизации музыки с частотой 24 кГц до 44,1 кГц сгенерированные фрагменты никогда нельзя будет использовать в реальном мире, потому что при внимательном прослушивании разница в качестве между записями на компакт-диске и выходом MusicLM заметна даже для неспециалистов. В то время как изображение 1024 x 1024 (созданное DALL-E-2) уже можно использовать для веб-сайтов, сообщений в блогах и т. д., музыкальное произведение на частоте 24 кГц всегда будет считаться некачественным.

Точно так же, хотя «память» на 30 секунд впечатляет для модели машинного обучения звука, обученный композитор может часами писать связную музыку, а обученный музыкант может легко ее исполнить. В этом отношении моделям машинного обучения еще предстоит пройти долгий путь, чтобы догнать людей. Однако и частота дискретизации, и «память» модели, несомненно, будут увеличиваться по мере увеличения доступных вычислительных ресурсов. Кроме того, улучшения в методах сжатия звука и машинного обучения могут еще больше ускорить этот процесс. Видя, как быстро улучшаются модели генеративного ИИ за последние 2–3 года, я уверен, что к концу этого года эти проблемы будут более или менее смягчены.

Качественные/этические недостатки

Однако есть и то, что нельзя решить одним масштабом: это вопрос интеллектуальной собственности. В недавнем прошлом многие крупные генеративные модели подвергались судебным искам об авторских правах (GitHub Copilot и StableDiffusion и другие). В большинстве случаев модели обучались на данных, не предназначенных для коммерческого использования. И хотя творения модели новые, вы можете возразить, что она по-прежнему использует обучающие данные в коммерческих целях. То же самое относится и к MusicLM. Более того, всегда есть реальная вероятность того, что вам не повезет, и вы создадите что-то, что ворует целые мелодии или последовательности аккордов из произведения, защищенного авторскими правами.

В документе MusicLM вероятность создания «точного совпадения» с музыкальным произведением из обучающих данных составляет менее 0,2%. Хотя это звучит мало, имейте в виду, что — при условии, что уровень составляет 0,2% — 1 из 500 сгенерированных треков будет безопасным подозреваемым для претензий об авторских правах. Почти наверняка более крупные наборы данных с большим разнообразием, а также улучшенные архитектуры моделей или алгоритмы обучения могут помочь снизить эту скорость, но основная проблема остается, как и в других областях, таких как изображения или текст: если мы планируем использовать генеративный Модель ИИ, обученная на данных, защищенных авторскими правами, мы не можем генерировать результаты в массовом масштабе, не рискуя серьезными юридическими последствиями. Однако это не только финансовый риск, но и серьезная этическая проблема.

Кроме того, ни MusicLM, ни данные обучения не были опубликованы. Это вызывает этические опасения по поводу прозрачности и подотчетности систем ИИ. Поскольку модели искусственного интеллекта, такие как MusicLM, могут изменить всю отрасль, важно, чтобы процесс и методология разработки были открыты для проверки. Это позволило бы исследователям понять, как обучалась модель, оценить ее погрешности и определить любые ограничения, которые могут повлиять на ее результаты. Без доступа к модели становится сложно оценить ее влияние на общество и потенциальные риски, которые она представляет.

Наконец, неясно, каковы бизнес-варианты использования MusicLM или будущих моделей. В мире уже есть миллионы людей, которые эффективно и бесплатно производят отличную музыку. Таким образом, снижение стоимости музыкального сочинения путем замены людей машинами даже экономически неэффективно, не говоря уже о нежелательности с этической точки зрения. Хотя, безусловно, будут способы зарабатывать деньги с помощью MusicLM как таковой, я вижу еще больший потенциал и ценность в генеративном ИИ в качестве помощников для людей-композиторов, позволяя им быстро прототипировать музыкальные идеи и сосредоточиться на создании художественной ценности для мира.

Будущие перспективы

Трудно сказать, куда заведет нас будущее с точки зрения генеративного ИИ для музыки. Одно можно сказать наверняка: MusicLM будет заменен и улучшен еще более крупными моделями, использующими еще больший набор данных и еще более умные алгоритмы. Эти модели, несомненно, смогут преодолеть многие недостатки MusicLM. Кажется неизбежным, что подобные технологии радикально изменят музыкальный рынок — и, скорее всего, раньше, чем позже. Однако я считаю, что сосредоточить все наше внимание на моделях черного ящика было бы ошибкой. Миру, по большому счету, не нужны машины для сквозного производства музыки. Для этого у нас есть люди. Что действительно важно, так это то, что мы используем технологии искусственного интеллекта, чтобы привнести в этот мир больше художественной ценности, предоставляя новые способы изобретать, создавать музыку и наслаждаться ею.

Спасибо, что прочитали эту статью! В основном я пишу о пересечении ИИ и музыки, поэтому, если вас это интересует, вам могут понравиться и другие мои работы.