Как выбор обучающих данных исключает или включает определенные демографические данные

Тема «Справедливость и предвзятость в машинном обучении» становится все более популярной по мере того, как все больше и больше людей осознают влияние машинного обучения на нашу повседневную жизнь. Модели машинного обучения все чаще используются в таких отраслях, как финансы, занятость, образование и даже здравоохранение. Одна из самых больших проблем в достижении справедливых моделей - получение наборов данных, содержащих актуальную актуальную информацию, репрезентативную для целевой группы. Некоторые из причин, по которым получение этих наборов данных для обучения является сложной задачей, заключается в том, что это трудоемкий и дорогостоящий процесс, требующий больших технических знаний по ключевым этическим факторам. Хотя это может быть сложной задачей для множества небольших компаний, которым необходимо более строго относиться к своим затратам и рабочей силе, это не подлежит обсуждению аспект разработки эффективных моделей машинного обучения. В этой статье я расскажу, как отсутствие данных влияет на разработку справедливых моделей машинного обучения в финансовом секторе.

В финансовой отрасли модели машинного обучения используются для оценки риска, связанного с определенными инвестициями или при предоставлении кредита заемщикам. Фактически, лучший пример использования ML в финансах - это рост компаний FinTech (финансовых технологий). Финтех-компании получают согласие потребителей на доступ к их кредитной истории, тем самым создавая более широкий пул доступных данных. Затем они используют эту информацию, чтобы быстрее и эффективнее получить исчерпывающие кредитные рейтинги заемщиков. Поскольку FinTech-компании могут обрабатывать информацию о заемщиках намного быстрее, чем традиционные банки, они являются более привлекательными кредиторами и, следовательно, привлекают больше внимания потребителей. Машинное обучение не только улучшает оценку заемщиков для FinTech-компаний, но также улучшает более общие аспекты бизнеса при эффективном использовании. Финтех-компании, развертывающие ИИ во многих областях своей компании, быстрее получают больше преимуществ, чем те компании, которые, кажется, выбирают наиболее подходящие места для развертывания моделей, например. чат-боты, андеррайтинг и т. д. Наличие взаимосвязанных моделей, которые сокращают расходы в различных частях бизнеса, помогает увеличить прибыль, которая затем может быть перенаправлена ​​потребителям в виде более низких ставок по кредитам. [1]

Очевидно, что машинное обучение может изменить финансовую отрасль. Проблема, возникающая при использовании машинного обучения, заключается в том, что существует много места для несправедливо предвзятых алгоритмов из-за неявной предвзятости разработчиков или данных обучения. Даже самые опытные и прогрессивные модели оценки заемщиков FinTech полагаются на информацию, которая использовалась в традиционной банковской системе для определения кредитного рейтинга. Недавно я прочитал исследование 2015 года, посвященное количеству невидимых и кредитных не подлежащих страхованию людей в США. Кредитные невидимые люди - это люди, у которых нет кредитной истории в кредитном бюро или NCRA, в то время как кредитные не подлежащие страхованию люди - это те, чьи записи в NCRA и кредитных бюро недостаточны или не актуальны по времени, чтобы они могли быть оценивается для целей заимствования. Исследование показало, что 11% взрослых американцев не имели кредита и 8% не подлежали выплате. Хотя кажется, что это небольшой процент взрослого населения, это вызывает беспокойство, когда эти показатели оцениваются по расовому и этическому признаку. Полученные данные показывают, что чернокожие и латиноамериканцы с большей вероятностью останутся незамеченными с раннего возраста и сохранят эту траекторию до конца своей взрослой жизни. [2]

Вопрос о том, нужно ли человеку вести отслеживаемую кредитную историю, может быть спорным. Однако, когда мы оцениваем влияние, которое это оказывает на доступ к кредиту для личных инвестиций, то есть ипотеки, бизнес-ссуды и т. Д., Становится необходимым наличие кредитной документации. Традиционные банки часто не решаются выдавать ссуды без кредитного рейтинга, потому что они не могут оценить индивидуальный риск. Часто это приводит либо к отказу в выдаче ссуды, либо к ссуде, предоставленной с премией выше средней. Эта практика ограничивает количество людей, имеющих доступ к кредитам; кредит, необходимый для повышения уровня их жизни и создания богатства. Существует неоспоримая корреляция между большим количеством «невидимых» и «не подлежащих страхованию» людей из групп меньшинств и их ограниченным доступом к кредитам финансовых учреждений. Возникает вопрос: «Как машинное обучение и большие данные изменят это?»

В настоящее время компании FinTech имеют широкий доступ к информации о потребителях через свои (потребительские) цифровые следы. Они могут использовать эту информацию для замены информации, полученной из традиционных источников, таких как бюро кредитных историй, и создания более всеобъемлющих моделей, которые могут оценивать ранее не подлежащих страхованию заемщиков, тем самым расширяя доступ к кредитам. Это отличный следующий шаг в плане предоставления кредита ранее недостаточно обслуживаемым общинам. Машинное обучение позволяет изучать взаимосвязь между современной цифровой информацией, традиционными кредитными рейтингами и показателями дефолта.

Цифровая информация кажется ответом, не так ли? Я имею в виду, что все каким-то образом представлены в Интернете через социальные сети, службы подписки или даже поиск в Интернете. Тем не менее, характер вашего онлайн-представительства также многое говорит о таких характеристиках, как ваше образование, социально-экономический статус, привычки в расходах и т. Д. Таким образом, в цифровом пространстве также существует возможность невидимости в зависимости от функций, которые разработчики выбирают для использования. доступ к кредитоспособности. Повышает ли уровень образования, указанный в вашем резюме на LinkedIn, вашу оценку? Поднимает ли тревожный сигнал ваш пост в Facebook о вашей одержимости покупкой новой обуви? Отсутствие подписки - проявление бережливости или низкого дохода? Информация в Интернете может многое сказать о человеке. Отсутствие информации в Интернете также может многое сказать о человеке. Подобно тому, как традиционные методы исключают группы лиц с недокументированными кредитными рейтингами, новые методы оценки могут создать новые социально-экономические разногласия между следующей волной заемщиков. Существует возможность появления нового типа невидимого и / или не подлежащего страхованию заемщика. Крайне важно, чтобы разработчики машинного обучения в финансовом секторе, а также лица, определяющие политику, заинтересованные в этике и возможных результатах этих моделей, собрались вместе и обсудили, как мы можем получить репрезентативные наборы данных, которые не исключают возможность получения кредита для меньшинств.

Примечание. Группы меньшинств не всегда можно разделить по защищенным признакам, таким как раса, пол, сексуальность или даже класс. Однако функции, выбранные для разработки модели, могут служить заместителями для этих защищенных атрибутов. [3]