Эффективность и предсказательная сила моделей машинного обучения сильно зависят от качества данных, используемых на этапе обучения. В большинстве реальных сценариев модели обучаются с использованием конкретных данных предметной области, предоставленных известными и надежными источниками. Однако не все источники данных известны и доброжелательны; некоторые из них носят враждебный характер и направлены на то, чтобы исказить то, как модели делают свои прогнозы.

Например, злоумышленники могут отравить данные, используемые для обучения модели машинного обучения, внедрив ложные образцы в набор обучающих данных. Следовательно, безопасность обучающих данных и аутентификация должны рассматриваться как важнейший этап в процессе обучения, тестирования и разработки моделей машинного обучения. В Modzy мы разработали уникальное решение, которое интеллектуально отфильтровывает нечистые точки данных перед отправкой данных в модель машинного обучения, чтобы гарантировать качество и безопасность обучающих и тестовых наборов данных.

Что нужно знать о состязательных атаках и обучающих данных

Множество работ в сообществе исследователей машинного обучения указывает на эффективность атак с отравлением данных в снижении производительности моделей машинного обучения [1, 2]. В этих атаках злоумышленник стремится манипулировать производительностью модели, вставляя в данные тщательно сконструированные экземпляры отравления. Например, атаки ядовитых лягушек — это тип атаки, при которой отравленные экземпляры вводятся в обучающий набор данных инженерным способом, так что после обучения модель не может правильно классифицировать конкретные экземпляры, принадлежащие к определенному классу объектов [2]. В рамках другой схемы атаки, называемой бэкдор-атакой, злоумышленник контролирует часть данных и может использовать эту часть, чтобы заставить модель принимать решения на основе того, что хочет злоумышленник [3], превращая модель во вредоносное ПО.

Например, злоумышленник может сообщить классификатору вредоносных программ, что если в файле присутствует определенная строка, то этот файл следует пометить как безопасный. Это означает, что злоумышленник теперь может создавать вредоносные файлы, включая определенную строку где-то в файле, которая будет помечена классификатором как безвредная.

Традиционно компьютерная безопасность была сосредоточена на защите системы от злоумышленников путем укрепления границ между системой и внешним миром [4]. Однако наиболее важной частью любого процесса машинного обучения являются данные обучения и тестирования, которые поступают непосредственно из внешнего мира, включая безопасность данных обучения и тестирования. Учитывая, что большинство моделей машинного обучения либо обучаются на пользовательских данных, либо тестируются на них, злоумышленник может легко внедрить вредоносные данные, чтобы повлиять на производительность модели машинного обучения [5]. Кроме того, поскольку трансферное обучение становится все более распространенным инструментом, используемым при обучении моделей машинного обучения в различных приложениях, эти типы атак на основе данных могут легко переноситься с одной модели на другую и быстро распространяться незаметным образом. Возможность таких атак побуждает нас определять безопасность обучающих данных как фундаментальную часть любого процесса обработки данных и машинного обучения в Modzy.

Один подход к обучению безопасности данных

При создании нашей платформы ModelOps Modzy безопасность и аутентификация наборов данных, а также данных, используемых во время обучения и вывода, очень важны — из-за клиентов, которых мы обслуживаем. Наши специалисты по обработке и анализу данных разработали новый подход для обнаружения точек данных при обучении и тестировании наборов данных, которыми манипулировали злоумышленники. Эта структура обнаружения действует как фильтр данных как во время обучения, так и во время вывода, чтобы обнаруживать отравленные экземпляры данных до того, как они попадут в модель.

Наша модель обнаружения состоит из новой архитектуры, которая использует Residual Networks (ResNet) и была обучена на большом наборе враждебных данных для обнаружения точек данных, отравленных различными методологиями атак. Эта модель может обнаруживать отравленные данные, изучая, как враждебные точки данных ведут себя внутри модели машинного обучения. Одним из наиболее интересных свойств нашего решения для обнаружения является его способность переноса из одного набора данных в другой. Другими словами, наше решение для обнаружения может обнаруживать враждебные входные данные для ряда приложений, наборов данных и архитектур моделей. Это означает, что наше модульное решение для обнаружения может быть подключено к различным моделям машинного обучения, чтобы повысить защитные возможности и устойчивость моделей к целому ряду различных атак злоумышленников.

Что это значит для сообщества

Поскольку машинное обучение все чаще используется для последовательных процессов принятия решений в критически важных средах, защита моделей от атак со стороны злоумышленников становится все более важной. Для этого мы должны сначала понять различные типы состязательных атак как во время обучения, так и во время логического вывода. Одним из аспектов этой защиты является аутентификация и обеспечение безопасности обучающих данных до начала обучения, а также защита точек входных данных до того, как они будут введены в модель во время логического вывода. Большинство моделей машинного обучения изначально разрабатывались без какой-либо заботы о безопасности и устойчивости к атакам, но с тех пор исследователи в этой области определили несколько видов атак под эгидой состязательного машинного обучения; все это может сильно подорвать полезность моделей машинного обучения. Крайне важно, чтобы любой конвейер машинного обучения, используемый для обучения, тестирования и разработки моделей, был разработан с учетом безопасности как обучающих данных, так и данных логического вывода. Специалисты по данным Modzy активно работают над разработкой более эффективных защитных решений и применением этих решений для обучения и разработки всех моделей искусственного интеллекта Modzy.

использованная литература

  • [1] Биджио, Баттиста, Блейн Нельсон и Павел Ласков. «Отравляющие атаки на машины опорных векторов». Препринт arXiv arXiv: 1206.6389 (2012).
  • [2] Шафахи, Али и др. «Ядовитые лягушки! целевые атаки с «чистой меткой» на нейронные сети». Достижения в области нейронных систем обработки информации. 2018.
  • [3] Чен, Синьюнь и др. «Целенаправленные бэкдор-атаки на системы глубокого обучения с использованием отравления данных». Препринт arXiv arXiv: 1712.05526 (2017).
  • [4] Бишоп, Мэтью А. «Искусство и наука компьютерной безопасности». (2002).
  • [5] Стейнхардт, Джейкоб, Панг Вэй В. Кох и Перси С. Лян. «Сертифицированная защита от атак с отравлением данных». Достижения в области нейронных систем обработки информации. 2017.