Глубокое обучение

Понимание криптографии GAN

Относительно неизвестный метод может стать ключевым строительным блоком в частных решениях ML.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 100 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Безопасный обмен данными — одно из самых больших препятствий на пути внедрения решений искусственного интеллекта (ИИ). ИИ касается интеллекта не меньше, чем данных, а большие наборы данных являются привилегией нескольких компаний в этом мире. В результате компании, как правило, невероятно защищают свои активы данных и очень консервативны, когда дело доходит до обмена ими с другими людьми. В то же время специалистам по данным необходим доступ к большим размеченным наборам данных, чтобы проверять свои модели. Это постоянное противоречие между конфиденциальностью и интеллектом стало определяющей динамикой в ​​современных приложениях ИИ.

Для любой компании будет гораздо более ценным предоставить доступ к своим данным большой группе ученых и исследователей данных, чтобы они могли извлекать из них информацию, сравнивать и оценивать модели и находить правильное решение. Однако как они могут гарантировать, что их данные будут защищены, что интерес их клиентов будет сохранен или что некоторые недобросовестные специалисты по данным не поделятся своими знаниями с конкурентами? Столкнувшись с этой проблемой, многие компании создают механизмы для анонимизации своих наборов данных, но вряд ли это решение во многих сценариях.

Почему не работает анонимизация?

Анонимизация данных кажется очевидным решением проблемы конфиденциальности данных. В конце концов, если мы сможем скрыть конфиденциальные аспекты набора данных, мы сможем достичь определенного уровня конфиденциальности. Хотя теоретически обоснованный аргумент, проблема с анонимизацией заключается в том, что она не предотвращает вывод. Давайте возьмем сценарий, в котором хедж-фонд делится набором данных проприетарных исследовательских индикаторов акций (скажем, Apple), коррелирующих с ценами их акций. Даже если имя Apple запутано в наборе данных, любой умный специалист по данным может понять это, сделав некоторые базовые выводы. Как правило, эмпирическое правило

«Если другие атрибуты в наборе данных могут служить предикторами запутанных данных, то анонимизация — не лучшая идея» 😉

С годами такие методы, как гомоморфное шифрование, безопасные многосторонние вычисления или доказательства с нулевым разглашением, стали важными основами частных методов машинного обучения. Криптография GAN — это относительно неизвестный метод из этой группы, но он имеет очень прочную теоретическую основу для обеспечения надежной конфиденциальности в конвейерах ML.

Криптография ГАН

Где-то между методами анонимизации и гомоморфным шифрованием мы находим новую технику, впервые разработанную Google, которая использует состязательные нейронные сети для защиты информации от других нейронных моделей. Исследовательская работа с подробным описанием этой техники была опубликована в конце 2016 года под названием Обучение защите связи с помощью состязательной нейронной криптографии и, без сомнения, является одной из самых увлекательных статей по ИИ, которые я читал за последние два года.

Подождите, мы говорим об использовании нейронных сетей для криптографии? Традиционно считалось, что нейронные сети очень плохо справляются с криптографическими операциями, поскольку им трудно выполнять простые вычисления XOR. Хотя это правда, оказывается, что нейронные сети могут научиться защищать конфиденциальность своих данных от других нейронных сетей: они открывают формы шифрования и дешифрования без обучения конкретным алгоритмам для этих целей.

В настройке сценария шифрования GAN участвовали три стороны: Алиса, Боб и Ева. Обычно Алиса и Боб хотят безопасно общаться, а Ева хочет подслушивать их общение. Таким образом, желаемым свойством безопасности является секретность (а не целостность), а противник является «пассивным злоумышленником», который может перехватывать сообщения, но в остальном весьма ограничен.

В сценарии, изображенном выше, Алиса хочет отправить одно конфиденциальное сообщение P Бобу. Сообщение P вводится Алисе. Когда Алиса обрабатывает этот ввод, она производит вывод C. («P» означает «открытый текст», а «C» означает «зашифрованный текст».) И Боб, и Ева получают C, обрабатывают его и пытаются восстановить P. Давайте представим эти вычисления PBob и PEve соответственно. Алиса и Боб имеют преимущество перед Евой: у них есть общий секретный ключ K. Этот секретный ключ [K] используется Алисой и Бобом в качестве дополнительных входных данных.

Неформально цели участников выглядят следующим образом. Цель Евы проста: точно реконструировать P (другими словами, минимизировать ошибку между P и PEve). Алиса и Боб хотят ясно общаться (чтобы свести к минимуму ошибку между P и PBob), но также скрыть свое общение от Евы.

Используя методы генеративной состязательной сети, Алиса и Боб вместе обучались успешному общению, одновременно учась побеждать Еву. Вот в чем фишка, Алиса и Боб не имеют предопределенного представления ни о криптографических алгоритмах, которые они собираются использовать для достижения своей цели, ни о методах, которые будет использовать Эвен. Следуя принципам GAN, Алиса и Боб обучены побеждать лучшую версию Евы, а не фиксированную Еву.

Результаты экспериментов с криптографией GAN были замечательными. Как вы можете видеть на следующей диаграмме, где-то около 8000 тренировочных шагов и Боб, и Ева начинают реконструировать исходное сообщение. Примерно через 10 000 шагов обучения сети Алисы и Боба, кажется, понимают это, и частота ошибок Евы снова возрастает. Другими словами, Боб смог извлечь уроки из поведения Евы и защитить связь, чтобы избежать атаки, по-прежнему повышая ее эффективность.

Возвращаясь к приложениям ИИ, криптография GAN может использоваться для обмена информацией между компанией и нейронными сетями при сохранении высокого уровня конфиденциальности. Что, если бы нейронные сети могли научиться не как защищать информацию, а что защищать с учетом целей злоумышленника? Это даже будет более жизнеспособным решением для приложений ИИ, поскольку модели могут научиться выборочно защищать информацию, сохраняя некоторые элементы в наборе данных незашифрованными, но предотвращая любые формы вывода, которые могут раскрыть конфиденциальные данные.

Команда Google адаптировала криптографическую архитектуру GAN в модели, в которой Алиса и Боб по-прежнему используют общий ключ, но здесь Алиса получает A, B, C и создает D-public в дополнение к зашифрованному тексту; и Боб, и Ева имеют доступ к выходным данным Алисы; Боб использует их для получения улучшенной оценки D, в то время как Ева пытается восстановить C. Цель состоит в том, чтобы продемонстрировать, что состязательное обучение позволяет аппроксимировать D без раскрытия C и что это приближение может быть объединено с зашифрованной информацией и с ключом, чтобы получить лучшее приближение D.

Чтобы понять, учится ли система правильно скрывать информацию, исследователи использовали отдельный оценщик, который мы называем «Слепая Ева», который знает о распределении C. Слепая Ева пытается угадать C, полагаясь только на эту базовую информацию, тогда как настоящая Ева также знает промежуточный вывод (D-public) и зашифрованный текст. Если ошибка реконструкции Евы становится равной ошибке Слепой Евы, это признак того, что Еве не удается успешно извлечь информацию из публичной оценки и зашифрованного текста. Именно это и произошло. После нескольких тренировочных шагов преимущество Евы перед «слепой Евой» становится незначительным, что указывает на то, что Ева не может восстановить больше информации о C, чем это было бы возможно, просто зная распределение значений C.

Криптография GAN — это относительно неизвестный метод, который может сыграть ключевую роль в основных приложениях ИИ. Концептуально криптография GAN может позволить компаниям обмениваться наборами данных с учеными без необходимости раскрывать содержащиеся в них конфиденциальные данные. В то же время нейронные модели могут выполнять вычисления с данными, зашифрованными с помощью GAN, без необходимости их полной расшифровки.