Мысли о том, как системы поиска информации о музыке могут способствовать более глубокому вовлечению контента в онлайн-потребление музыки.

Немного предыстории

1997 год, какое время для жизни. Мне было шестнадцать, и я только что получил свою первую работу в музыкальном магазине. Это была очень уникальная гибридная витрина, в которой продавались доски для серфинга, пластинки и музыкальные инструменты. Несколько лет спустя я перешел работать на злополучную студию Tower Records и, в конце концов, на Everyday Music (которая до сих пор работает в Портленде, штат Орегон, когда я последний раз проверял).

Я жил и дышал музыкой в ​​тот период моей жизни. Я не только мог «проверить» альбомы так же, как вы могли бы это сделать в библиотеке, у меня также был тайник с компакт-дисками и пластинками, спрятанными на полках магазинов. Каждый день зарплаты, несмотря на то, что я зарабатывал чуть больше минимальной зарплаты, я покупал еще несколько названий.

Мне всегда нравилось общаться с клиентами о музыке, учиться у них и давать рекомендации, когда я думал, что могу помочь расширить их музыкальный репертуар. Разговоры забрели в темные уголки музыкальной истории и фольклора. Независимо от того, была ли в центре внимания электроника, панк, металл, кантри, джаз или классика, гобелен был богатым, плотным и казался бесконечным; вселенная музыки.

Несколько лет спустя волею судьбы я стал инженером-программистом. Я избавлю вас от длинных и извилистых подробностей этой траектории 😅. Сегодня, как и многие из нас, я впитываю музыку через различные стриминговые сервисы. Должен признать, широта доступной музыки просто ошеломляет. Удивительно, что такое богатство можно найти простым поиском и щелчком мыши, но очень редко какой-либо отдельный альбом или песня сопровождается каким-либо подобием истории, места или другого контекста.

Музыкальные магазины или потоковое воспроизведение музыки?

Вполне логично, что на многих уровнях сервисы потоковой передачи музыки станут де-факто каналом потребления звукового совершенства. Роскошь доступа ко всему пространству музыкальной вселенной через единый источник — это то, что многие никогда не считали возможным, и это сама по себе настоящая сверхспособность.

Однако, несмотря на эту огромную привилегию, предоставленную нам, навигация по вселенной музыки с помощью потоковых сервисов может не впечатлить, поскольку часто приводит к неудовлетворительному восприятию прослушивания. Бесконечные циклы обратной связи, основанные на жанрах, застойные плейлисты и неактуальные рекомендации — это всего лишь несколько вариантов черной дыры, в которую вы можете попасть.

Я регулярно спрашиваю друзей и знакомых, что они слушают в последнее время, и ответы обычно включают тот или иной безымянный плейлист, без какого-либо конкретного упоминания альбомов, исполнителей и тому подобного. Редко эти запросы приводят к тому, чтобы поделиться нашими последними музыкальными открытиями. Для многих музыка отошла на второй план их жизни. Во многом это связано с автоматизированным характером сервисов потоковой передачи музыки. К сожалению, эти чудо-алгоритмы в своем стремлении к персонализации в какой-то степени дегуманизировали музыку.

Потенциал для более глубокого взаимодействия с контентом

К настоящему времени многие из нас знают и понимают, что машинное обучение является неотъемлемым аспектом нашей жизни. Это влияет на наш текущий выбор, основанный на нашем предыдущем выборе или на выборе, сделанном демографическими данными, к которым мы, как считается, принадлежим. Эти алгоритмы, которые так сильно влияют на принятие нами решений, обучены воспроизводить треки, которые заставляют нас слушать и возвращаться. Это прекрасный мотив для компаний, занимающихся потоковой передачей музыки, но он приводит к повторному прослушиванию и отсутствию доступа к новому контенту. Как потребители этих услуг, кажется, что мы часто ограничиваемся нашими рейтингами «большой палец вверх» или «палец вниз» или нашей предыдущей историей прослушивания. Налицо явное отсутствие контроля и прозрачности в отношении того, как и почему нам рекомендуют определенный контент.

Именно на этом этапе я убежден, что существуют интересные направления исследований, которые могут трансформировать современные системы доставки музыки, которые вскоре свяжут нас с артистами, их историями, нашей современной культурой и другими бесконечными перекрещивающимися путями через бесконечную вселенную музыки.

Музыка как данные

Музыка — это удовольствие, которое человеческая душа испытывает от счета, не осознавая, что она считает.

- Готфрид Лейбниц

Чтобы начать этот мысленный эксперимент, нам нужно рассмотреть множество способов представления музыки и то, как эти представления можно использовать, чтобы дать новым поколениям слушателей возможность заниматься, курировать, делиться и ценить музыку.

Прежде чем мы зайдем слишком далеко, я хочу указать, что каждое из следующих представлений данных является отдельной наукой, и я буду рассматривать их здесь лишь бегло. В будущих статьях я напишу более подробные объяснения, включу код и, возможно, даже интерактивные примеры.

Категориальные данные

Мы начнем с изучения одного из наиболее простых и знакомых типов структур данных, используемых для описания музыки; «категориальные данные». Часто эти данные лучше использовать в качестве фильтров или критериев сортировки и включают в себя следующие типы информации: имена исполнителей, названия альбомов, жанры, поджанры, год выпуска, страна, лейбл и т. д. Эти данные можно легко представить в виде строки и столбцы в реляционной базе данных, электронной таблице или файле CSV.

Хотя эти данные кажутся несколько тривиальными, они абсолютно необходимы для создания точного музыкального каталога. Недавно я проделал то, что, как мне казалось, будет простой задачей, пытаясь автоматизировать пометку коллекции из 6,5 КБ mp3-файлов. Многие файлы были названы неправильно, содержали неправильную информацию об альбоме или отсутствовали жанр, год и другие важные данные. Я написал несколько скриптов на Python для восстановления и восстановления отсутствующих метаданных путем поиска в извлеченных записях с discogs.com. Я использовал процедуры сопоставления с образцом для сопоставления имен файлов с законными названиями песен из Discogs и обновлял метаданные mp3, когда вероятность точного совпадения была достаточно высокой. Упражнение открыло мне глаза, поскольку оно оказалось гораздо более сложным, чем я ожидал. Все сказано и сделано, я получил очень чистый набор данных, который отлично подойдет для дальнейших экспериментов по разработке систем классификации и рекомендаций.

Бесконечные связи — Графики знаний

Графики — это структуры данных, которые соединяют отдельные точки данных друг с другом через «ребра». Эти ребра представляют отношения между точками данных и, таким образом, создают превосходные структуры для описания взаимосвязанности людей, мест, тем, событий и объектов. Представление на основе графа ближе всего к физической карте через пространство данных, такое как вселенная музыки.

Легко представить себе одну точку на графике, представляющую такой альбом, как Ambient 1: Музыка для аэропортов. Естественно, с этим пунктом будет связан еще один пункт, представляющий художника, создавшего произведение, разумеется, не кого иного, как Брайана Ино. В связи с Брайаном Ино есть точка для темы Зацикливание ленты и связанная с ней другая точка для Центра магнитофонной музыки в Сан-Франциско. Снова и снова… вы легко можете себе представить, как эта сеть взаимосвязанных точек может продолжаться до бесконечности.

Точки на графике не ограничиваются наличием только одного соединения. Точка для Брайана Ино также будет связана с точками для Roxy Music, Дэвида Боуи, Дэвида Бирна и многих других.

Соединения между точками могут быть помечены информацией о самом соединении. Лучше всего это достигается, когда «онтология» понятий или типов отношений определена специально для пространства данных. Например, связь между Брайаном Ино и альбомом «Heroes» Дэвида Боуи может быть обозначена как «Produced By». Еще одна связь между «Heroes» и «Krautrock» может быть обозначена как «Inspired By». Использование таких схем маркировки может облегчить поиск и фильтрацию в информационно-поисковых системах. Например, если вы хотите найти все точки, связанные с Брайаном Ино связями «Продюсер», все, что вам нужно будет найти, — это связи с этим ярлыком, связанные с Брайаном Ино.

Кроме того, связи могут быть взвешены, чтобы указать силу связи между двумя точками. Это свойство можно использовать в дальнейшем для фильтрации результатов поиска, чтобы выявить сильные или слабые связи в пространстве поиска.

Неструктурированные данные

Одна из моих любимых вещей в коллекционировании и прослушивании пластинок — это найти время, чтобы поставить пластинку, сесть за чашку кофе и прочитать примечания к альбому.

Выше представлена ​​обложка альбома «Серебряные яблоки луны» Мортона Суботника. На оборотной стороне пластинки есть подробный отчет о том, как она была сделана, о чем думал артист и немного о самом артисте.

В интеллектуальном анализе данных и машинном обучении такие данные называются неструктурированными данными. Обычно этот термин относится к тексту, как большому, так и маленькому, который не соответствует какой-либо заданной структуре, кроме структуры естественного языка. Другие примеры такого рода данных в отношении музыки включают обзоры альбомов, интервью с артистами и статьи в Википедии.

Благодаря недавним достижениям в области обработки естественного языка, таким как GPT-3 и другие модели на основе преобразователей, нейронные сети теперь могут изучать содержимое текстовых данных и выполнять определенный уровень ответов на вопросы. Это открывает всевозможные возможности для многих областей, включая музыку, где вскоре можно будет использовать эти сети для создания интерактивных программ ответов на вопросы. Я не думаю, что эти технологии когда-либо смогут заменить общение с другими людьми в реальной жизни, но для исследователя-одиночки или музыкального фаната, который углубляется, эти технологии позволят открыть для себя самые отдаленные уголки вселенной музыки.

Другой пример использования неструктурированных данных, таких как заметки на обложке и обзоры альбомов, — это использование нейронных сетей для создания других типов структур данных, таких как графы знаний, о которых я писал выше. Это область исследований, которая меня лично очень интересует. Мне очень интересна перспектива подачи неструктурированного текста на вход модели и получения точного графа знаний. Используя такие технологии, как Распознавание именованных объектов и Тегирование частей речи, должна быть возможность обучать модели, которые могут автономно идентифицировать и делать выводы о взаимосвязях между точками данных.

Звуковые подписи

Для меня одним из самых захватывающих видов музыкальных данных являются сами аудиоданные. Визуализация звука давно перестала быть моим делом, и совсем недавно я работал над сбором различных видов спектральных данных из той же коллекции mp3-файлов, о которой я упоминал выше, для использования в обучающих рекомендательных системах с использованием нейронных сетей.

Используя технику, известную как преобразование Фурье, можно взять сигнал, подобный волновой форме звуковой дорожки, и преобразовать его в его следствие в частотной области. Используя эту информацию, мы можем создать что-то вроде звуковой подписи для песни. Сигнатуру можно использовать для обучения нейронной сети классифицировать жанры и поджанры, определять настроение и чувства, идентифицировать инструмент и многое другое. Возможно, вы уже знакомы с этой концепцией благодаря таким сервисам, как Shazam, которые используют такие данные для распознавания песен.

Он не останавливается на этих простых спектрограммах. Используя другие передовые методы из области обработки сигналов, можно также генерировать другие виды спектральных данных.

На рисунке выше визуализируется «хромаграмма» трека «Dropped» группы Atoms for Peace. По оси X у нас есть время, а по оси Y у нас есть высота тона (связанная с хроматической шкалой). Более яркие области указывают на более сильное присутствие нот, выровненных по оси Y. Опять же, мы можем использовать такого рода данные для обучения нейронных сетей различным задачам в системах поиска музыкальной информации. Кроме того, хромаграмма может быть объединена со спектрограммой, создавая тем самым еще более описательное представление дорожки.

Есть несколько других типов спектральных представлений, каждый из которых обеспечивает глубокое понимание звуковой природы песни. Я планирую более глубоко погрузиться в эту тему в ближайшие недели и напишу больше о своем исследовании, когда оно будет готово.

Ансамбли данных

До сих пор мы рассмотрели несколько способов представления музыки в данных. Конечно, есть и другие представления, которые мы не обсуждали. Мы не занимались написанием музыки или MIDI, которые по своей сути ориентированы на данные и могут дать одно из самых глубоких представлений о музыкальных теоретических структурах. Тем не менее, я думаю, что концепции, изложенные здесь, действительно предоставляют довольно богатую палитру для разработки иммерсивных инструментов для исследования вселенной музыки.

Как может выглядеть эта система с точки зрения конечного пользователя? Это тема для другого дня. Поскольку я продолжаю исследовать область поиска музыкальной информации, я буду публиковать новые статьи, которые углубляются в такие детали.

Следующие шаги…

Музыка имеет фундаментальное значение для человеческой цивилизации. Он формирует и отражает нашу культуру, политику, убеждения и ценности. В наш современный век мгновенного потребления контента, поменяли ли мы более глубокое понимание музыки на удобство автономного воспроизведения?

В то время как музыкальные магазины по-прежнему являются центрами для более серьезных поклонников музыки, подавляющее большинство людей прокладывают свой путь в этой жизни, не обращая внимания на богатство музыкальной вселенной.

Сегодняшние потоковые сервисы не помогают исправить это. Вместо этого, как было сказано ранее, они увековечивают фоновый фон музыки в нашей жизни. Я придерживаюсь мнения, что это можно исправить. Интегрируя еще более интеллектуальные системы и иммерсивную технологию поиска в сервисы потоковой передачи музыки, больше людей получат доступ к вселенной музыки.

Оставайтесь с нами и присоединяйтесь ко мне в этом стремлении, поскольку я продолжаю исследовать, как современные технологии могут быть использованы для возрождения нашей связи с музыкой.