Конкурс машинного обучения с сохранением конфиденциальности на AdKDD’21 по данным Criteo

Интересные вопросы машинного обучения иногда появляются из самых неожиданных мест. Обратный отсчет апокалипсиса печенья идет, и обсуждения в W3C становятся все более и более точными. Вы, наверное, уже знакомы с такими предложениями, как FloC и FLEDGE, но сегодня нас интересует разработка API для измерения конверсии и способы его использования для нового — и крутого — машинного обучения.

Говоря о рекламе, ориентированной на эффективность, непросто найти правильную точку баланса, при которой данные не идентифицируют отдельный клик или пользователя, но при этом имеют смысл. Недавно Google предложил зашумленную агрегацию пользовательских данных и предоставил некоторые параметры-кандидаты для этого шума. Это вызвало интерес у многих, в том числе у организаторов АдКДД-21 и у нас. Мы решили организовать открытое научное соревнование по прогнозированию кликов и продаж в рамках этой структуры с общим призовым фондом в размере 20 000 долларов США. Конкурс продлится до 1 августа 2021 г..

Общая картина задачи сводится к следующему:

Как показано на рисунке выше, в настройке «обучения в условиях дифференциальной конфиденциальности» участвуют два основных механизма. Исходные индивидуальные данные хранятся в тайне, и рекламодатели имеют доступ только к агрегированным и зашумленным данным, чтобы изучить свои модели прогнозирования для размещения рекламы. Точнее, последовательно выполняются два шага:

Агрегация: исходные данные агрегируются по свойствам (или комбинациям признаков). Разрешены только простые статистические данные, такие как SUM или COUNT, и доступно несколько агрегированных представлений.

Внедрение шума. Чтобы защитить конфиденциальность пользователей, к статистике каждого агрегата добавляется шум, чтобы злоумышленнику было трудно угадать, является ли данный пользователь его частью.

Обратите внимание, что в этом конкурсе мы фокусируемся на задаче извлечения уроков из данных определенного типа (последний шаг). Другими словами, участники не могут запрашивать конкретные агрегаты, а должны полагаться на те, которые предоставлены в файлах данных, оставляя дополнительный аспект разработки запросов для будущей работы.

Основной набор данных, предоставленный участникам, состоит из зашумленных агрегированных данных, которые были вычислены путем выполнения запросов, описанных ниже, к большому непредоставленному набору данных. Существует 19 различных функций, и для каждой функции был выполнен один запрос, а также по одному запросу для каждой пары функций, всего 190 запросов. Функции были выбраны среди наиболее информативных из всей системы размещения рекламы, ориентированной на производительность. Предоставленные данные содержат как ярлыки кликов, так и ярлыки продаж, которые являются целевыми с точки зрения потери журнала.

Мы также включаем небольшой набор неагрегированных размеченных данных, чтобы участники могли разрабатывать модели в автономном режиме. Хотя нас в первую очередь интересуют методы, которые не полагаются на такие неагрегированные данные, участники могут свободно использовать их в качестве небольшого «классического» тренировочного набора, который предлагает простую стратегию для решения задачи. Просто имейте в виду, что в агрегированном наборе данных доступно в 1000 раз больше меток! Кроме того, мы опубликуем полные этикетки после окончания конкурса, что позволит использовать эти данные для научных исследований и дальнейших публикаций.

Гораздо больше по задаче, в том числе пояснения по масштабу и виду шума в технических деталях.

У вас есть идеи о том, как добиться отличного машинного обучения в этих условиях? Или вы хотите исследовать новые земли? Уже ›10 AdTech-компаний из ЕС/США/Америки, включая рекламные платформы, DMP и консалтинговые агентства, решили попробовать. Почему не ты? Присоединяйтесь к нам и примите участие в вызове!

Ps: вас также может заинтересовать другая небольшая задача, которую мы организовали на французской конференции по машинному обучению, CAp’21, чтобы найти представления пользователей, которые позволяют предсказывать клики и которые трудно использовать для повторной идентификации пользователей. Этот конкурс завершен, но результаты мы представим в конце июня на конференции. Подробнее об этом, в этой средней статье.

Спасибо, что прочитали! Если вы хотите прочитать больше о наших последних статьях, посмотрите это:

Неожиданное исключение NullReferenceException
Откройте для себя забавный недостаток dotnet EventListener API из System.Diagnostics.Tracing, который может привести к сбою любого приложения с…medium.com

Criteo/CAp21: задача искусственного интеллекта с сохранением конфиденциальности
Основываясь на последних разработках в области машинного обучения с сохранением конфиденциальности, мы предлагаем задачу в сотрудничестве с…medium.com

И если вы хотите присоединиться к нам, ознакомьтесь с нашими открытыми вакансиями!

Карьера в Criteo | Вакансии Criteo
Ищите возможности везде. careers.criteo.com

Конкурс машинного обучения с сохранением конфиденциальности на AdKDD’21 по данным Criteo

Вопросы по теме