Мнение

Машинное разучивание: обязанность забывать

Как и почему важно стирать информацию о точках данных из модели ИИ

Что такое право быть забытым? Что такое разучивание машины? Возникает новое внимание к конфиденциальности, что приводит к новым правилам. Машинное обучение должно уметь стирать информацию, но это сложная задача. Почему? Как мы могли бы сделать?

Память электронного слона

В 2020 году объем данных в Интернете составляет 64 зеттабайта (где зеттабайт — это триллион гигабайт). Кроме того, существует более 40 миллиардов изображений в Instagram, 340 миллионов твитов в день, бесчисленное количество постов в Facebook и так далее. Мы делимся большим количеством данных, но мы также оставляем много следов, просто просматривая Интернет.

За последние годы интерес к конфиденциальности и защите данных глобально вырос. Пользователи узнали, сколько данных мы передаем, используя множество приложений или посещая бесчисленные веб-сайты. С другой стороны, пользователи поняли, что эти данные собираются, используются и продаются. Скандалы, подобные Cambridge Analytica, повысили восприятие ценности наших данных, которыми мы делимся в Интернете.

Эффективность профилирования наших данных также демонстрируется тем, как таргетированная реклама показывается как в социальных сетях, так и в наших поисковых запросах Google. Тот факт, что алгоритмы могут так хорошо профилировать нас, заставляет нас задаться вопросом, кому продаются эти данные. Действительно, использование информации в данных позволяет компаниям зарабатывать миллиарды.

Как бы мы ни менялись, наши мысли меняются, и мир меняется, но данные остаются в Интернете навсегда.

Право на забвение

Право на забвение определяется как право на то, чтобы личная информация о человеке была удалена из поиска в Интернете и других каталогов при определенных обстоятельствах (википедия). Однако нет согласия относительно этого определения или того, следует ли его учитывать или добавлять в список прав человека. С другой стороны, несколько учреждений и правительств обсуждают и предлагают правила (Аргентина, Европейский союз, Филиппины).

Эта концепция права на забвение основана на фундаментальной потребности человека самостоятельно определять развитие своей жизни, не будучи постоянно или периодически стигматизированным вследствие определенного действия, совершенного в прошлом, особенно когда эти события произошли много лет назад и не имеют никакого отношения к современному контексту — предложение ЕС

На самом деле информация и события из прошлого могут по-прежнему вызывать клеймо и последствия даже спустя много лет. Простой пример: Джеймс Ганн был уволен из «Стражей Галактики 3 компанией Disney после того, как всплыли его оскорбительные твиты. Он был уволен в 2018 году за твиты, написанные в период с 2008 по 2011 год.

Мои слова, произнесенные почти десять лет назад, в то время были полностью неудачными и неудачными попытками быть провокационными. С тех пор я сожалел о них много лет — не только потому, что они были глупы, совсем не смешны, дико бесчувственны и, конечно же, не вызывающи, как я надеялся, но и потому, что они не отражали того человека, которым я являюсь сегодня или кем был. когда-то." — Джеймс Ганн, «заявление

Конечно, вы можете удалить то, что написали в Твиттере или разместили в Facebook и Instagram. Однако удалить то, что выложено в Интернете, не так-то просто. например, Facebook запустил инструмент под названием Активность вне Facebook, который позволяет пользователям удалять данные, которыми сторонние приложения и веб-сайты поделились с Facebook. Однако оказывается, что Facebook просто отвязывал данные от пользователя.

В 2014 году испанский суд вынес решение в пользу человека, который потребовал удалить определенную информацию из результатов поиска Google. В 1998 году мужчине пришлось продать недвижимость, чтобы погасить долг по социальному обеспечению. Google отказался, но затем и суд, и суд ЕС постановили, что Google необходимо удалить результат поиска. Суд постановил, что, поскольку долг был выплачен давным-давно, результаты поиска кажутся неадекватными, неактуальными или более неактуальными или чрезмерными с учетом прошедшего времени.

Право на забвение рассматривается как необходимость во многих случаях, предотвращая индексацию в поисковых системах по порномести, мелким преступлениям, совершенным в прошлом, неоплаченным долгам и так далее. Однако те, кто критикует это право, говорят, что закон рассматривается как посягательство на право на критику и свободу выражения мнений. Европейский союз пытался найти баланс между правом на неприкосновенность частной жизни и свободой критики и выражения мнений.

Считается, что машинное обучение способно усугубить проблему, собирая и анализируя все эти данные (от электронных писем до медицинских данных), сохраняя информацию навсегда. Кроме того, использование этой информации в страховых, медицинских и кредитных моделях может привести к очевидному вреду и усилить предвзятость.

Как научить машину забывать

Машинное отучение — это зарождающаяся область искусственного интеллекта, цель которой — удалить из модели все следы выбранной точки данных (избирательная амнезия), не влияя на производительность. Машинное разучивание имеет разные применения: от предоставления права на забвение до предотвращения того, что модели ИИ могут утечь разумную информацию. Кроме того, машинное обучение может помочь в борьбе с утечкой данных и атаками со стороны противника.

Компании тратят миллионы долларов на обучение и развертывание больших моделей ИИ, и они не хотели бы переобучать или удалять модели. Однако регуляторы ЕС и США предупреждают, что модели, обученные на конфиденциальных данных, могут быть принудительно убраны. Правительство Великобритании в отчете, посвященном основам искусственного интеллекта, пояснило, что модели машинного обучения могут подлежать удалению данных в соответствии с GDPR. Например, Paravision неправомерно собрала миллионы фотографий лиц и была вынуждена Федеральной торговой комиссией США удалить как данные, так и обученные модели.

Однако отучить машину от обучения — непростая задача, как подчеркивается в основополагающей статье в этой области:

  • У нас мало знаний о том, как точка данных влияет на модель. Это особенно сложно с большими нейронными сетями, где у нас есть много разных слоев, и точка данных может влиять на многие параметры.
  • Стохастичность в обучении. В нейронных сетях мы используем небольшие пакеты данных, которые выбираются случайным образом, и порядок меняется от эпохи к эпохе, поэтому во время обучения сложно реконструировать поток данных.
  • Обучение является поэтапным. Если модель обновляется при наличии обучающей точки данных, все последующие обновления модели каким-то неявным образом зависят от этой точки данных.
  • Стохастичность в обучении. Сложно сопоставить точку данных с гипотезой, извлеченной из нее.

Самый простой подход — удалить точку данных из обучающих данных и переобучить модель. Однако это явно дорого. Например, OpenAI потратила ориентировочную стоимость от 1,0 до 20 миллионов долларов на обучение GPT-3. Таким образом, нам нужны лучшие и более дешевые альтернативы.

Один из самых известных, подход SISA, был предложен в 2019 году исследователями Университета Торонто. Подход Sharded, Isolated, Sliced ​​and Aggregated (SISA) предлагает обрабатывать данные по частям. Идея состоит в том, что если есть точки данных, которые нужно удалить, повторно обработать нужно только часть входных данных. Проще говоря, набор данных делится на разные осколки и постепенно представляется модели во время обучения. Параметры сохраняются перед добавлением еще одного сегмента, что позволяет начать переобучение непосредственно перед использованием точки, которую необходимо отменить.

Однако этот подход не свободен от недостатков: он может забыть только определенное количество точек данных, а если и не задать в определенной последовательности. Так, в 2021 году была опубликована статья, направленная на решение этих вопросов. Они утверждали, что их подход может позволить удалить гораздо больше точек данных.

Еще один многообещающий подход — дифференцированная конфиденциальность, когда компании собирают и обмениваются только совокупной информацией о привычках пользователей, сохраняя конфиденциальность отдельных лиц. Microsoft, Google и Apple инвестируют в эту технологию, но она еще не получила широкого распространения.

Хотя тема относительно новая, уже опубликовано несколько статей, и в будущем их количество будет расти.

Прощальные мысли

Право быть забытым — это право иметь несовершенное прошлое — Сюзанна Мур.

В 2022 году право на забвение было подтверждено несколькими постановлениями (Италия, Аргентина, Индия). В целом GDPR предусматривает, что компании должны удалять пользовательские данные по запросу. В настоящее время действующее прецедентное право требует, чтобы каждый запрос анализировался в каждом конкретном случае. Перо, в последние годы учреждения уделяют повышенное внимание как конфиденциальности, так и искусственному интеллекту.

Скорее всего, в ближайшие годы будут приняты новые правила. Калифорния приняла закон о праве на забвение в 2020 году (California Consumer Privacy Act), Северная Каролина движется в том же направлении, также идут дискуссии на федеральном уровне. Кроме того, ЕС обсуждает регулирование других аспектов искусственного интеллекта, и, как показано выше, на модели ИИ может повлиять право на забвение.

С другой стороны, нам необходимо сбалансировать неприкосновенность частной жизни и право на самовыражение, не допуская использования права на забвение в качестве формы цензуры. Кроме того, новые технологии, такие как блокчейн, открывают новые проблемы, требующие решения».

Более того, сегодня люди гораздо более чувствительны к этой теме. Это мнение было воспринято компаниями, и многие из них стремятся повысить конфиденциальность пользователей. Недавно, например, Google объявил о расширении политики для граждан США по удалению личных данных (адрес электронной почты и физический адрес, собственноручные подписи, несогласованные откровенные или интимные личные изображения и так далее) из результатов поиска.

Как уже упоминалось, нам нужно найти способ, чтобы в случае исключения данных обученные модели ИИ очищались с помощью информации, извлеченной из этих точек данных. Отучить машину от обучения — непростая задача, но некоторые подходы уже опробованы, а другие находятся в разработке. В заключение, машинное разучивание, хотя и является относительно новой областью, является растущей областью и будет играть важную роль по мере усиления регулирования.

Если вы работаете с машинным разучиванием или интересуетесь этикой ИИ, мне интересно ваше мнение.

Если вам было интересно:

Вы можете найти другие мои статьи, вы также можете подписаться, чтобы получать уведомления, когда я публикую статьи, и вы также можете связаться со мной или связаться со мной в LinkedIn. Спасибо за вашу поддержку!

Вот ссылка на мой репозиторий GitHub, где я планирую собирать код и множество ресурсов, связанных с машинным обучением, искусственным интеллектом и многим другим.



Или не стесняйтесь проверить некоторые из моих других статей на Medium:









Дополнительные ресурсы

  • Дополнительная информация о праве на забвение: здесь, здесь, здесь
  • репозиторий GitHub с большой коллекцией статей о машинном разучивании: здесь
  • семинар о машинном отучивании: здесь
  • о дифференциальной конфиденциальности: здесь