На первый взгляд киноиндустрия кажется довольно простой для понимания. Зрители лишь мельком видят актеров на своих экранах. Зрители редко задумываются о внутренней работе и сложных процессах, скрытых за большим экраном. В отрасли есть несколько уровней, которые определяют ее успех. Большие данные — полезный инструмент для специалистов по данным, работающих в киноиндустрии.

Ученые данных играют ключевую роль в обеспечении триумфа с этими данными, собирая соответствующие образцы и анализируя важные тенденции для оценки предпочтений публики. На основе собранных данных компании могут прогнозировать предпочтения клиентов и привычки просмотра.

Многие потоковые платформы боятся того дня, когда их клиентам надоест рекомендуемый контент. Непрерывный и повторяющийся контент может заставить людей через некоторое время обратиться к другому источнику. Чтобы предотвратить это, компании работают над улучшением своих алгоритмов потоковой передачи и полагаются на системы рекомендаций.

Большие данные и системы рекомендаций

Специалисты по данным в известных производственных компаниях (Amazon, Netflix, Hulu) анализируют тенденции в данных, чтобы понять зрительские предпочтения широкой публики и удовлетворить их пристрастия. Большие данные обычно собираются путем прочесывания сайтов в Интернете и общедоступных резервов данных для получения точной информации. Рекомендательные системы используют эти данные для оценки предпочтений публики.

Рекомендательные системы — это «алгоритмы, направленные на то, чтобы предлагать пользователям релевантные элементы». Эта система состоит из двух частей: совместная фильтрация и фильтрация на основе контента.

А. Совместная фильтрация

Совместный метод опирается на отношения пользователя с прошлыми вариантами. Затем эти взаимодействия сохраняются в «матрице взаимодействий пользователя с элементом», показанной ниже.

Предпочтение пользователя выражается с использованием двух категорий. Явный рейтинг — это значение по шкале, например, количество звезд, которое можно поставить просмотренному фильму. Скрытый рейтинг документирует действия пользователя, такие как просмотры страниц, количество кликов, записи о покупках, независимо от того, слушали ли они определенный музыкальный трек. Информация, хранящаяся в матрице, затем используется для определения того, какие оценки соответствуют тому или иному пользователю.

Совместная фильтрация использует алгоритм ближайшего соседства. Для совместной фильтрации на основе пользователей существует матрица измерений (a × b), где a обозначает количество идентификаторов пользователей, а b обозначает количество элементов, содержащих оценки.

Если данный целевой пользователь не смотрел или не оценивал определенный элемент, мы все равно можем предсказать оценку этого целевого пользователя. Для этого нам нужно вычислить сходство между всеми пользователями и нашим целевым пользователем. После этого мы собираем X лучших похожих пользователей, а затем берем средневзвешенные оценки от X пользователей со сходством в качестве весов.

Иногда люди дают оценки выше, чем их истинное значение. Чтобы предотвратить искажение данных из-за этого явления, вычтите средний рейтинг каждого пользователя по всем элементам при расчете средневзвешенного значения, а затем добавьте его обратно к целевому пользователю. В этом заключается идея алгоритма ближайшего соседства.

CF на основе элементов — это когда два элемента считаются похожими, потому что они получили одинаковые оценки от одного пользователя. Система рекомендаций сначала находит сходства между парами элементов, а затем переходит к этапу построения модели. При расчете система использует линейную регрессию и взвешенную сумму. Линейная регрессия используется для определения отношений между рейтинговыми привычками разных пользователей. Система анализирует элементы, которые оценил пользователь, и проверяет сходство между элементами, а затем создает рекомендуемый список.

Б. Контентная фильтрация

Контентная фильтрация рекомендует элементы, которые соответствуют предпочтениям пользователя на основе их прошлых оценок, особенно более высоких. По мере того, как пользователь продолжает оценивать элементы, алгоритм становится все более и более точным в предсказании предпочтений пользователя. Легче сузить выбор на основе сохраненной информации.

Преимущество фильтрации на основе контента заключается в том, что она не требует данных о других пользователях, поскольку этот тип фильтрации зависит от пользователя. Этот метод также может помочь понять конкретные интересы пользователя, поэтому он может рекомендовать контент, который, возможно, лишь немногим потребляют другие пользователи. Это может работать даже тогда, когда у продукта нет обзора. Представленный контент также варьируется, что открывает возможности для других подходов, таких как методы обработки текста.

Ограничение заключается в том, что модель может рекомендовать контент только с использованием текущих интересов, а не понимать интересы в более широком плане. Это приводит к созданию пузыря фильтров, явления, при котором алгоритм рекомендует пользователю только определенные типы контента. Например, если пользователь в настоящее время интересуется боевиками, большинство предлагаемых фильмов будут боевиками. О разнообразии в данном случае не может быть и речи.

Повторяющийся контент может утомить пользователя, что приведет его к выбору другого варианта. Компании пытаются преодолеть это препятствие и сделать его более эффективным в долгосрочной перспективе.

Пример успеха: Netflix

Netflix использует системы рекомендаций, чтобы понять предпочтения своих клиентов. После создания учетной записи пользователям предлагается выбрать несколько заголовков, которые их интересуют. Эти заголовки используются для «запуска» алгоритма, который сопоставляет контент на основе интереса пользователя. Те, кто не выберет никаких названий, начнут с нуля, поскольку они выбирают шоу.

По мере того, как пользователь продолжает просматривать больше контента, последние заголовки заменят прошлые заголовки. Netflix добавляет теги к каждой работе, которые обобщают основные части названия, такие как «ностальгическая драма» или «романтическая комедия».

Новая система рекомендаций Netflix, которая использует фильтрацию на основе контента, опирается на данные изображения, обложки, которые пользователь видит при просмотре заголовков. Netflix использует структуру, которая использует большие данные, чтобы в конечном итоге решить, какие изображения подходят для каждого пользователя. После проведения множества экспериментов с пользовательскими предпочтениями было доказано, что пользователям нравятся определенные эмоциональные диапазоны. Алгоритм Netflix, по сути, работает для отображения титульной страницы шоу, которая отражает важные для пользователя аспекты, в частности эмоциональные аспекты шоу.

А. Вариант рекомендательной системы

Netflix нашел способ улучшить качество звука и изображения своего контента, чтобы полностью погрузить своих зрителей в то, что они смотрят. Прогнозирующее кэширование используется для увеличения скорости видео или воспроизведения с более высоким качеством. Например, если зритель смотрит телесериал, следующий эпизод будет частично кэширован.

К счастью, все эти исследования и тяжелая работа окупились. Стратегия Netflix, заключающаяся в частом предоставлении нового разнообразного контента и неоспоримого опыта в индустрии развлечений, делает ее грозным конкурентом. Прибыль Netflix увеличилась более чем на 30% с 2015 года, а годовой доход составляет ошеломляющие 16,614 млрд долларов.

Впечатления клиентов

Хотя большие данные полезны для увеличения продаж, они также помогают определить проблемные области в компании. Если у клиентов возникают трудности с определенным брендом, они, скорее всего, перейдут на другой вариант.

Даже самые преданные клиенты не могут терпеть более одного досадного инцидента. В опросе, проведенном PricewaterhouseCoopers, 59% заявили, что перейдут на другую марку после нескольких ужасных событий, а 17% — всего лишь после одного ужасного опыта.

Как видно на рисунке выше, даже один опыт может отпугнуть определенный процент клиентов. Несколько плохих инцидентов действительно приводят к значительно более высокому проценту недовольных людей.

Внедрение больших данных и более эффективных систем рекомендаций помогает компаниям смягчить проблемные области, чтобы обеспечить положительный отклик клиентов.

Хотя есть много возможностей для улучшения, такие компании, как Netflix, находятся в хорошем положении. Эти компании будут продолжать вводить новшества и развивать свои технологии, чтобы увеличить процент довольных клиентов. Недавние разработки в рекомендательных системах уже привели к большому успеху из-за способности системы по большей части понимать своего пользователя. Система будет продолжать улучшать свою точность с течением времени.