Этика в науке о данных, или Как я научился волноваться и подвергать сомнению процесс

Обзор и обсуждение двух недавних книг о данных и предвзятости

Итак, вы создали модель. Может быть, она обладает высокой степенью предиктивности, вы в восторге от того, насколько хорошо она оценивается по вашим целевым показателям, и вы были строги в своих процессах на протяжении всего процесса. Ваша модель хороша или у нее все хорошо?

В рамкахмоей работы над программой иммерсивного анализа данных в Metis я подготовил короткую презентацию о проблемах этики в технологиях, особенно в связи с нашей работой в области анализа данных. Я сосредоточился на двух вышеперечисленных книгах: Оружие математического разрушения Кэти О'Нил и Алгоритмы угнетения Сафии Умоджи Ноубл. Моя цель здесь состоит в том, чтобы кратко обобщить эти работы и сделать несколько выводов, которые я надеюсь использовать, когда я начинаю свою карьеру в науке о данных.

Работа О’Нила сосредоточена на реальных последствиях моделей, которые непрозрачны, экспоненциально масштабируются и в конечном итоге наносят ущерб людям, с которыми они работают. Она называет эти модели «оружием математического разрушения» за то, как они в конечном итоге оказывают непропорционально сильное воздействие на менее могущественных, создавая результаты в разреженном воздухе, которые предположительно безупречны. Часто эти модели, которые обеспечивают экономию данных и претендуют на достоверность, основанную на их математической природе, опровергают лежащую в основе ошибочность людей, которые их создают.

Точно так же Ноубл копается в истории Google — особенно в результатах поиска, которые по своей сути являются рекомендательными системами — и демонстрирует их повторяющиеся расовые предубеждения, которые кодифицируют системные проблемы нашего общества в новых технологиях. В то время как Интернет и новые технологии, как правило, заявляют о том, что они уравнивают правила игры и делают мир лучше, ретроспективный взгляд часто доказывает, что было бы лучше двигаться медленнее и ломать меньше вещей по пути. Часто те вещи, которые были сломаны во имя прогресса и прибыли, являются спиной людей, наиболее бесправных в обществе.

Ваша модель хороша или у нее все хорошо?

Давайте вернемся к той модели, над которой вы работали. Я буду использовать пример из оружия математического разрушения для обсуждения: вынесение приговора в тюрьме в зале суда. Возможно, вам поручили создать модель, которая уменьшает расовое профилирование и определяет вероятность рецидивизма, помогая судье определить суровость приговора. Это модель, которая на первый взгляд пытается решить проблему в нашем обществе предвзятого наказания и неравного приговора. Возможно, созданная вами модель, как упоминалось ранее, хорошо предсказывает рецидивизм и не использует расу в качестве признака.

О'Нил, когда его попросили подумать о том, как начать разговор о технической этике с учеными, занимающимися данными, смотрит на это время, зная, что большинство этически мотивированных людей не будут включать расу, и спрашивает: «Используется ли в вашей модели почтовый индекс? ” Вы прогнозируете вероятность рецидива у человека на основании его личных качеств или обстоятельств, в которых он вырос?

Эти модели, предназначенные для расовой слепоты, основывались на статистических данных о том, сколько лет было человеку, когда он впервые столкнулся с полицией, и сколько его друзей или соседей были осуждены за преступления. Возможно, они также использовали почтовый индекс. Подумайте об этих особенностях, хотя они потенциально связаны с рецидивизмом, но они также могут сильно коррелировать с расой, социально-экономическим статусом и другими факторами. Как оказалось, эти модели проделали большую работу по сохранению именно той системы, которую они намеревались исправить, но теперь с дополнительным слоем непрозрачного применения и псевдокорректности. У него может быть «хороший результат», но он не помогает чьему-либо благополучию.

Эти книги содержат гораздо больше подробностей в своих областях, но я хочу кратко коснуться нескольких общих выводов. Читая Алгоритмы угнетения, я пришел к трем ключевым идеям:

Цифровая красная черта: цифровые решения усиливают расовое профилирование
ИИ станет серьезной проблемой прав человека в 21 веке
Инструменты и алгоритмы принятия решений маскируют и углубляют неравенство

Существуют системные и структурные особенности наших обществ, которые были созданы для поддержания определенной динамики власти. У каждой новой технологии есть возможность работать за или против этой системы, другого варианта нет. Когда это возможно, постарайтесь критически подумать о роли, которую будет играть конкретная модель или инструмент, какие функции будут использоваться и на кого это повлияет. Мы все будем совершать ошибки, но важно сохранять критический взгляд и непредвзятость.

Точно так же О'Нил предлагает читателю несколько важных выводов в конце Оружия математического разрушения, а именно:

Этика данных может противоречить ориентации компании на прибыль
Многие компании буквально построены на этих проблематичных моделях.
Те, кто пострадал изначально, в основном бедняки и те, у кого меньше власти
Требует поставить справедливость выше прибыли
Технологии и данные не всемогущи

Иногда будет трудно отделить социальную потребность быть критическим от капиталистической потребности в прибыли в бизнесе. Особенно в обстоятельствах, когда определенная модель уже существует, отклонение от нее в пользу менее деструктивной модели, приносящей меньшую прибыль, не привлечет многих людей. Сообщайте о своих моделях, их входных данных, выходных данных и методологии как можно четче, особенно о любых предположениях, которые вы можете сделать. Помните, что эти проблемы нельзя решить с помощью технологий, они широко распространены в обществе, но это никогда не оправдывает игнорирования той роли, которую мы можем сыграть в обеспечении позитивных изменений.

Мои выводы на раннем этапе моей карьеры в области науки о данных касаются многих идей, которые уже занимают центральное место в педагогике науки о данных.

Во-первых, это идиома «мусор на входе, мусор на выходе». Это относится к этике, поскольку модели, которые я создаю, будут опираться на данные, которые я выбираю, нахожу и проектирую для их обучения. Если используемые функции основаны на прокси или указывают на системные предубеждения, я могу ожидать, что мои результаты также будут проблематичными. Что это значит для меня, когда я собираю данные для будущих рабочих проектов? Какие вопросы я могу и должен задавать в начале проекта?

Другой вариант — попытаться с самого начала спросить себя, что будет означать, если моя модель «совершенно» хороша? Как это будет выглядеть в продукте, какое влияние я могу предвидеть, и кому это может помочь или навредить? Если моя модель делает именно то, что я намереваюсь сделать, есть ли непредвиденные последствия или приложения, которые следует учитывать? Этот дополнительный шаг определения масштаба проекта не только помогает определить потенциальные непредвиденные последствия, но и может помочь установить ожидания для конечного продукта.

Наконец, могу ли я что-нибудь сделать, чтобы сделать свою работу более четкой, прозрачной и более понятной для моей команды, заинтересованных сторон и людей, на которых она может повлиять? Крайне важно не только иметь возможность сообщить, как была построена модель и каким образом ее можно применять для укрепления доверия внутри компании, но и сделать эти четкие сообщения доступными для тех, на основе которых алгоритм делает прогнозы. Если модель, которую я создаю, станет частью решения, которое повлияет на чью-то жизнь, они заслуживают возможности узнать, что было в процессе. Модели и данные не безупречны, они заслуживают того, чтобы их подвергали сомнению и тщательному анализу, и это начинается с ясности того, как они построены и реализованы.

Впереди у всех нас долгий путь. Эти проблемы могли остаться незамеченными на заре развития науки о данных, но мы чаще всего выдвигаем их на передний план. Это проблема прав человека, с которой мы будем продолжать сталкиваться, и мы будем видеть только больше таких историй, как Facebook урегулирует судебный процесс по распознаванию лиц и школы отказываются от предвзятого автоматизированного прокторинга. Как специалист по данным и человек, получивший ряд привилегий, я хочу приложить усилия и создать пространство для предотвращения вреда в будущем. Мы все должны всегда учитывать потенциальные последствия любой модели или анализа, поскольку в конечном итоге они будут оперировать не только абстрактными числами и окажут влияние на жизнь реальных людей.

Для получения более подробной информации обо мне, пожалуйста, посетите мой веб-сайт, а для связи найдите меня в LinkedIn.

Этика в науке о данных, или Как я научился волноваться и подвергать сомнению процесс

Обзор и обсуждение двух недавних книг о данных и предвзятости

Вопросы по теме