Благодаря новому позиционированию Dailymotion хочет дать своим пользователям возможность выбраться из пузыря фильтров. Новый домашний канал создан для того, чтобы каждый мог обсуждать и оспаривать свое мнение.

Один канал, несколько мнений

Мобильное приложение Dailymotion предлагает единый канал с вертикальными видеороликами от широкого списка создателей контента. Цель — предложить разнообразный и стимулирующий контент, который адаптируется к желаниям пользователей, позволяя им при этом бросить вызов или выразить свое мнение.

Скачайте приложение в Google Play или App Store и попробуйте сами!

Значительная работа уже была проделана для создания этого нового Homefeed с использованием архитектуры, вдохновленной многоруким бандитом и многоступенчатой ​​рекомендательной системой. Подробнее о наших первых шагах в построении этой модели вы можете узнать здесь.

В этой статье представлена ​​недавно созданная рекомендательная система, построенная на основе существующей архитектуры. Цель этой новой функции – предоставить нашим пользователям другую точку зрения на видео или темы, которыми они уже интересовались.

Обзор архитектуры Home Feed

Чтобы понять эту новую систему рекомендаций, возможно, потребуется очень краткое объяснение архитектуры главного канала.

Если мы упростим архитектуру, алгоритм, отвечающий за рекомендацию видео в нашем главном канале, можно рассматривать как комбинацию различных небольших рекомендательных систем, каждая из которых имеет свое собственное поведение: одна из них рекомендует видео на основе их . >показатели эффективности (время просмотра, количество просмотров, актуальность...), а также рекомендации по видео на основе истории пользователя или подписанных каналов.

В этой статье основное внимание будет уделено нашей новой системе рекомендаций, основанной на мнениях, более оригинальной системе рекомендаций, целью которой является рекомендация персонализированного контента, а также попытка бросить вызов пользовательским предпочтениям. мнения.

Во время написания этой статьи рекомендации, предоставляемые этой новой системой рекомендаций, доступны через кнопку «Показать мне другую точку зрения», которая появляется в каждом подходящем видео. Эта функция будет развиваться в ближайшие месяцы.

Добавьте больше перспективы

Прежде чем углубляться в детали каждого аспекта этой системы рекомендаций, было бы полезно описать ее общий подход.

Прежде всего, новая система рекомендаций разработана на уровне видео. Фактически, для каждого видео в главной ленте пользователя первым шагом системы рекомендаций на основе мнений (или функции «Перспектива БЕТА») является найти похожие видео, т. е. видео, в которых также говорится о та же тема, что и входное видео.

Это поднимает важный аспект этой новой функции: не все видео допускаются. Например, некоторые видео могут быть слишком «нишевыми» по своей тематике, что делает невозможным поиск похожих видео.

Второй и, несомненно, самый важный аспект этой системы рекомендаций — ранжировать эти видео в соответствии с мнением, которое они выражают.

Наконец, если это возможно, у нас есть список похожих видео, ранжированных по интенсивности выражаемого ими мнения.

Это краткое объяснение нашей новой системы рекомендаций, основанной на мнениях, позволяет разделить ее на два основных этапа:

  • Генерация кандидатов отвечает за поиск видео, посвященных тем же темам, что и те, которые уже понравились пользователю.
  • Изменение рейтинга: упорядочивайте полученные видео и рекомендуйте видео, имеющие твердое и/или иное мнение.

В следующей схеме подробно описаны подразделы этой двухэтапной архитектуры:

Поколение кандидатов

В каталоге Dailymotion содержится несколько сот миллионов видео. Цель генератора кандидатов — превратить этот видеокаталог в короткий список из десятков релевантных видео для пользователя.

Первый фильтр выполняется с помощью простой эвристики: например, французским пользователям мы хотим рекомендовать только свежий контент на французском языке от создателей контента и традиционных СМИ. Сделав это, мы уже можем сузить список до нескольких сотни тысяч видео.

Тем не менее, нам все равно нужно сократить количество видео, а также найти видео, похожие на те, которые пользователь уже смотрел. Для этого нам нужно представить каждое видео как вектор.

Текстовые вставки для представления видео

Чтобы встроить видео, то есть представить видео в виде вектора с действительными числами в непрерывном векторном пространстве, доступно несколько вариантов: встраивание на уровне кадра, мультимодальное встраивание… Все эти варианты имеют важный недостаток: они требуют больших вычислительных ресурсов.

К счастью, каждое видео, загруженное в Dailymotion, также связано с несколькими текстовыми метаданными: заголовком, описанием и некоторыми тегами. Преобразовать текстовую информацию в векторную информацию проще и дешевле. Для этого мы используем Многоязычный универсальный кодировщик предложений (MUSE), предварительно обученную и модель внедрения многоязычных предложений с открытым исходным кодом. работа с 16 языками, включая французский.

Тем не менее, метаданные видео иногда могут быть слишком ограниченными. Некоторые видео могут содержать текстовые метаданные, которые не отражают реальное содержание видео. Например, видео, в котором единственной доступной информацией является заголовок «Мой ежедневный влог» и полное отсутствие описания, может не содержать достаточной текстовой информации.

Однако решение этой проблемы отсутствия текстовой информации можно найти. Недавние достижения в моделях преобразования речи в текст привели к появлению предварительно обученных и открытых решений, которые позволяют легко получить расшифровку видео: Шепот.

Заклинатель машин

Шепот — это модель распознавания речи с открытым исходным кодом, разработанная OpenAI, способная предоставлять автоматические субтитры к видео. Основанный на последовательной модели Transformer, Whisper прошел обучение с использованием 680 тысяч часов обучающих данных на нескольких языках и с различным качеством звука, что делает его устойчивым для всех типов звуковых дорожек.

Субтитры — важная функция, делающая наше мобильное приложение доступным для всех. Более того, их также можно использовать в качестве стенограмм наших видео, т. е. в качестве письменной записи озвученного содержания видео.

Эти автоматически созданные расшифровки, как правило, очень хорошего качества, позволяют нам извлечь гораздо больше текстовой информации, чем заголовок или описание видео.

Используя Whisper для получения расшифровки и MUSE для встраивания текста, содержащегося в этой расшифровке, мы теперь можем получить полное представление фактического видеоконтента, используя толькотекстовые метаданные.

На следующей диаграмме показано, как работает этот конвейер, а также представлен новый элемент в общей архитектуре нашего рекомендации: Qdrant.

Qdrant: создайте K-NN

Qdrant — это база данных векторного поиска с открытым исходным кодом. Qdrant предназначен для эффективной обработки многомерных векторных данных и позволяет находить похожие векторы на основе их косинусного показателя сходства. Он основан на алгоритме под названием Иерархический навигационный малый мир (HNSW), приблизительном алгоритме K-NN с очень коротким временем отклика (≈20 мс).

База данных Qdrant может легко хранить сотни тысяч вложений, а также различные связанные метаданные, такие как язык видео, дата создания или другую полезную информацию, если мы хотим фильтровать определенные видео при запросе к серверу.

Qdrant — это последний шаг генератора кандидатов: он позволяет быстро извлекать похожие видео из любого видео, которое понравилось пользователю в главной ленте. Например, для любого видео в базе данных Qdrant мы можем использовать его встраивание, чтобы получить N похожих видео, используя его приблизительную функциональность K-NN и косинусное сходство.

Тем не менее, даже если среди некоторых из этих N ближайших видео некоторые содержат разные точки зрения, нам все равно нужно переоценить выходные данные этого приблизительного K-NN, чтобы отдать приоритет видео. с твердым или отличным мнением.

Ререйтинг: выскажите свое мнение

Теперь, когда у нас есть видео-кандидаты, т. е. N видео, ближайших к входному видео, мы можем изменить рейтинг этого короткого списка видео, чтобы продвигать контент, который бросит вызов нашему мнению. пользователя.

Анализ мнений, также известный как анализ настроений, – это область обработки естественного языка (НЛП) и машинного обучения, целью которой является определение настроения или эмоционального тона, выраженного в фрагменте сообщения. текст.

С недавним доминированием таких моделей большого языка (LLM), таких как GPT (OpenAI), LLaMA (Meta) или PaLM (Google), анализ настроений также получил значительный импульс. Эти сложные модели также способны анализировать текст и присваивать ему оценку мнения.

В нашем случае мы отправляем каждую расшифровку видео в API PaLM Google. Модель прогнозирует оценку в диапазоне от -1 до 1, которая отражает мнение видео по теме, которой оно посвящено. Чем выше балл по абсолютной величине, тем сильнее мнение. Нулевой балл означает, что видео нейтрально и не выражает какого-либо особого мнения.

На этом этапе повторного ранжирования мы также используем другие метаданные видео, такие как соотношение сторон видео или свежесть, для построения окончательного рейтинга.

Наконец, у нас есть окончательный результат работы новой системы рекомендаций: для каждого видео, которое понравилось пользователю, мы теперь можем получить похожие видео, ранжированные по интенсивности мнений.

Создайте собственное мнение

Мы гордимся тем, что представили вам более оригинальную систему рекомендаций, которая не только персонализирует контент для пользователей, используя подход, основанный на контенте, но и оспаривает их мнение, переоценивая результат с помощью анализа настроений.

Два основных компонента этой системы рекомендаций, основанной на мнениях, а именно: Генерация кандидатов и Переоценка, играют решающую роль в создании этой ключевой функции для Dailymotion.

Хотите ли вы стать частью будущих значимых продуктов в области данных и искусственного интеллекта в Dailymotion? Проверьте наши открытые позиции.