Понимание того, что такое предвзятость на самом деле, и принятие правильных шагов для ее предотвращения может быть весьма полезным в области науки о данных.

Что ж, компания потратила значительную часть дохода, чтобы помочь развитию своего бизнеса с помощью машинного обучения. Как человек, который в основном занимается очисткой и подготовкой данных, а также делает ценные прогнозы для компании, есть еще один важный фактор, который следует учитывать при попытке развернуть модели машинного обучения в производственной среде. Именно в это время мы также должны учитывать этические последствия ИИ и насколько предвзяты наши модели в прогнозировании результатов. Поэтому фундаментальный вопрос должен заключаться в том, что на самом деле представляет собой предвзятость в машинном обучении. Давайте теперь займемся этой областью машинного обучения, в результате чего мы сможем создать надежную модель, которая также учитывает этические факторы.

Что такое предвзятость данных?

Всякий раз, когда мы загружаем данные в модель машинного обучения, качество данных и то, как связаны функции с результатом, обычно определяют качество прогностической модели. Если есть функции, которые не сильно коррелируют с результатом, шансы на успех при использовании моделей от самых простых до самых сложных моделей минимальны. Следовательно, наиболее важным аспектом, который необходимо учитывать специалисту по данным или инженеру по машинному обучению, является качество данных, предоставляемых различным моделям.

Теперь мы медленно приближаемся к определению предвзятости данных. Если бы вы могли вытерпеть меня, вы бы получили объяснение в пару строк. Поскольку мы узнали, что данные формируют основу того, насколько хорошо модели на самом деле работают на тестовых данных (невидимых данных), важно предположить, что качество данных определяет, насколько хорошо модели работают на тестовые данные. Если данные, которые мы используем для моделей ML, содержат много информации для определенного набора классов, они могут работать лучше для этого конкретного набора классов, чем для других.

Чтобы представить это в контексте, представьте, что мы пытаемся предсказать, собирается ли человек не платить по кредиту, основываясь на наборе характеристик, таких как регион, пол, раса, социальный статус, доход и работа. Следовательно, могут быть некоторые функции, которые легко доступны для модели для прогнозов. Если мы рассмотрим такие примеры, как «пол», и увидим, что значительная часть представленных людей — мужчины, модель узнает многое о заемщиках-мужчинах и о том, собираются ли они возвращать долг. кредит или нет по сравнению с женщинами-заемщиками. Аналогичный аргумент можно привести и в отношении расы. Таким образом, модель по своей сути учится тому, что у «мужчины» меньше шансов не выплатить кредит или наоборот. Когда мы рассматриваем такие показатели, как точность, чтобы увидеть, насколько хорошо работает модель, мы можем получить завышенную оценку ее производительности, несмотря на то, что она не очень хорошо работает в классе меньшинства. Это известно как предвзятость данных, когда определенная категория объектов представлена ​​чрезмерно по сравнению с другими.

Хотя предубеждения часто могут быть непреднамеренными, последствия их присутствия могут быть весьма значительными для групп людей, на которых они влияют. Рассмотрим примеры алгоритма найма Amazon, который систематически отсеивал кандидатов-женщин. Точно так же бот Microsoft в Твиттере был обвинен в расизме из-за результатов, которые он давал, и генерируемых им каналов. Если результаты показывают, что результаты модели более предвзяты в отношении определенной группы людей, существует более высокая вероятность того, что пользователи потеряют доверие и никогда не будут использовать модели в будущем.

После такого длинного объяснения мы можем прийти к выводу, что необходимо предпринять шаги для преодоления этого, чтобы мы могли больше доверять моделям.

Как преодолеть предвзятость данных в машинном обучении

Есть много способов уменьшить погрешность данных с помощью правильных стратегий и инструментов. Первый способ уменьшить предвзятость — узнать, где именно она имеет место. Если мы знаем области, на которых следует сосредоточиться, где может быть предвзятость, мы можем предпринять правильные шаги, чтобы определить, какие действия помогут в значительной степени уменьшить эту предвзятость. Давайте теперь рассмотрим различные способы, с помощью которых мы могли бы в значительной степени уменьшить смещение.

Определение правильной модели машинного обучения

Когда мы используем различные модели машинного обучения, независимо от того, выполняем ли мы задачу машинного обучения с учителем или машинного обучения без учителя, смещение может заключаться либо в том, что модель изучает различные представления между входом и выходом, что помогает ей изучить это. Если бы мы изменили несколько гиперпараметров или изменили несколько наборов элементов в модели, мы получили бы лучшие модели, а производительность во всех категориях была бы неизменной.

Представьте, что ваша команда попросила вас разработать модель машинного обучения, которая может определять, есть ли у человека более высокие шансы заболеть раком на основе набора характеристик, таких как возраст, пол, артериальное давление и состояние здоровья. многие другие. Может быть несколько моделей, которые изучают представления о таких характеристиках, как пол и возраст. Эти функции иногда можно использовать и придавать им большее значение по сравнению с другими факторами. Если это так, то, согласно модели, существует более высокая вероятность рака для определенного пола или возраста. Следовательно, в этом случае модель может быть предвзятой, поскольку она просто прогнозирует результат, основываясь только на поле или возрасте как на важном факторе. Один из лучших способов решить эту проблему — использовать различные инструменты, которые могут обеспечить интерпретируемость моделей. Если мы узнаем, почему модель вообще приняла решение, мы сможем определить, является ли модель предвзятой или нет. Существуют такие инструменты, как LIME (Local Interpretable Model-Agnostic Explanations), которые также могут помочь нам определить, почему модель приняла конкретное решение, помогая врачам на этом пути. Существуют и другие инструменты, такие как SHAP (значения Шепли), которые также можно использовать для интерпретируемости. Было бы хорошо дать вашей команде представление о том, почему модели дают определенные решения или результаты.

Предоставление надлежащей документации для используемых данных

Документирование данных может быть полезным двумя способами. Во-первых, может быть полезно понять различные функции нашей модели и их влияние на результат. Во-вторых, это также может привести к случаям, когда мы могли бы выявить систематическую ошибку в данных, взглянув на распределение данных. Наличие надлежащей документации данных также может гарантировать, что другие, кто их использует, понимают наличие различных функций, влияющих на прогнозы модели, а также наличие или чрезмерное представительство различных групп в моделях.

Поэтому, когда мы пытаемся создать решение с машинным обучением с использованием данных, может быть удобно, если есть документация предоставляемых функций. Рассмотрим пример предсказания того, является ли данный текст положительным или отрицательным. В этом случае мы рассмотрим различные функции с помощью обработки естественного языка (NLP). Когда мы используем это решение, может быть очень полезно, если есть документация данных и функций, которые мы используем для прогнозирования тональности текста. Если есть подавляющее количество положительных текстов и всего несколько отрицательных текстов, моделям может быть трудно преуспеть, когда есть отрицательный отзыв. Кроме того, просмотр документации по различным используемым функциям может помочь нам получить четкое представление о данных и о том, насколько важна каждая функция в прогнозах модели. Это возможно, если есть надлежащая документация данных, чтобы члены вашей команды могли получить к ним доступ и полностью понять, прежде чем использовать модели машинного обучения для прогнозирования.

Оцените производительность модели для различных категорий

При построении моделей машинного обучения, которые можно было бы использовать в производстве, они, как правило, хорошо работают для определенного набора категорий в наших данных. Когда мы рассматриваем защищенные функции, такие как возраст, пол и пол, они могут быть более эффективными для определенной группы или категорий по сравнению с другими. Чтобы бороться с предвзятостью, мы должны были бы убедиться, что модели хорошо работают во всех категориях, а не только в одной категории. Следовательно, мы должны учитывать производительность каждой из этих подгрупп и понимать, является ли производительность одинаковой для всех групп. Таким образом, есть хорошая возможность уменьшить систематическую ошибку в моделях.

Рассмотрим ситуацию, когда ваша модель достаточно хорошо работает на тестовых данных (непросмотренных данных) для прогнозирования того, является ли письмо спамом или ветчиной. В реальной жизни мы знаем, что большая часть наших писем является фальшивой, и только в нескольких случаях может быть спам. Следовательно, данные, доступные нам для обучения моделей, в значительной степени содержат дисбаланс классов, где количество нежелательных писем больше, чем спама. В этом случае может быть весьма полезно, если мы будем оценивать производительность для каждого отдельного класса, а не полностью сосредотачиваться на данных. Таким образом, мы хорошо оцениваем эффективность для каждого отдельного класса, а не для всех данных, что снижает предвзятость в отношении определенного класса (класса большинства).

Распространяйте больше информации

Хотя есть много квалифицированных специалистов по обработке и анализу данных, решающих некоторые из самых сложных проблем в компаниях, есть несколько человек, которые не придают столь большого значения этическим аспектам искусственного интеллекта. Распространение информации о наличии предвзятости в машинном обучении может быть весьма полезным, особенно когда можно принять меры для борьбы с ним. Также может быть полезно добавить больше контента в онлайн-курсы об этической стороне машинного обучения.

Из последних новостей мы узнаем, что такие компании, как Google и Microsoft, предпринимают шаги для распространения информации об этике ИИ. Точно так же организации могут принять меры, а также информировать людей о проблеме предвзятости данных и последствиях, которые она может иметь для различных защищенных классов. Когда они предпримут правильные шаги и будут более прозрачными в прогнозах моделей, многие люди смогут доверять этим моделям черного ящика и использовать их в своих будущих начинаниях.

Заключение

В общем, мы видели, что может быть предвзятость данных, которая используется в моделях машинного обучения для прогнозов. Принятие правильных мер по устранению предвзятости в данных может быть полезным, особенно когда мы признаем этическую сторону искусственного интеллекта. Шаги, которые можно предпринять для устранения предвзятости в машинном обучении, заключаются в определении правильных моделей машинного обучения, оценке производительности моделей по различным категориям и распространении большей осведомленности о предвзятости. Спасибо, что нашли время прочитать эту статью. Не стесняйтесь делиться своими мыслями.

Если вы хотите получать больше обновлений о моих последних статьях, а также иметь неограниченный доступ к статьям среднего уровня всего за 5 долларов в месяц, не стесняйтесь использовать ссылку ниже, чтобы добавить ваша поддержка моей работы. Спасибо.

https://suhas-maddali007.medium.com/membership

Ниже приведены способы, по которым вы можете связаться со мной или ознакомиться с моей работой.

GitHub: suhasmaddali (Сухас Маддали) (github.com)

LinkedIn: (1) Сухас Маддали, Северо-восточный университет, наука о данных | LinkedIn

Среда:Сухас Маддали — среда