Автор Harry Keen 15 мар 2019.

В 2018 году чуть менее пяти миллионов человек стали жертвами мошенничества с дебетовыми или кредитными картами в Великобритании - всего было украдено более 2 миллиардов фунтов стерлингов, что в среднем составляет 833 фунтов стерлингов на человека. Ожидается, что к 2025 году глобальные убытки от мошенничества с кредитными картами достигнут почти 50 миллиардов долларов.

Несмотря на то, что карты Mastercard и VISA с чипом оказались эффективными в борьбе с преступлениями, связанными с физическими кредитными картами, онлайн-мир по-прежнему страдает. Теперь компании ищут решение, которое может лучше обнаруживать и предотвращать мошеннические транзакции, и многие обратили свое внимание на решения, использующие методы машинного обучения.

Занятия для меньшинств в тренажерном зале для несбалансированных занятий

Обнаружение мошеннических транзакций в большом наборе данных представляет проблему, поскольку они принадлежат к меньшинству. Например, на каждый миллион транзакций может приходиться только 1000 случаев мошенничества, что составляет минутную долю (0,1%) от полного набора данных.

В науке о данных эти несбалансированные наборы данных может быть очень трудно анализировать, потому что алгоритмы машинного обучения, как правило, демонстрируют предвзятость для большинства классов, что приводит к ошибочным выводам.

Например, представьте, что вы управляете тренажерным залом, и владелец тренажерного зала просит вас спрогнозировать вероятность того, что каждый клиент продлит членство в тренажерном зале в конце года. Для этого вам нужно будет изучить существующие данные по каждому участнику - например, частота посещений, дата присоединения, предпочтения оборудования и т. д. - чтобы определить, попадают ли они в одну из двух категорий: будет продлевать или не будет продлевать.

Анализ этих данных затруднен тем фактом, что в тренажерном зале наблюдается аномально высокий коэффициент удержания: на сегодняшний день 99% клиентов возобновили свое членство. Проще говоря, невозобновляющиеся - это класс меньшинства.

Быстрый и простой способ действовать в этом случае - это предсказать, что 100% посетителей тренажерного зала обновятся в следующем году, что даст вам коэффициент точности 99%. Звучит здорово, правда?

Но эта модель не работает, потому что менеджер спортзала - или алгоритм - не смогли узнать ничего о том, какие участники спортзала с наименьшей вероятностью продлят членство. Таким образом, хотя прогноз имеет «хороший уровень точности», в конечном итоге он не приносит никакой ценности.

Больше, меньше и GAN

Традиционно было два популярных способа обработки несбалансированных наборов данных: передискретизация и недостаточная выборка.

Передискретизация достигается путем искусственного создания новых наблюдений в наборе данных, принадлежащих к недопредставленному классу (например, мошеннические транзакции). Существует ряд методов, которые специалисты по данным используют для передискретизации, в том числе SMOTE (метод синтетической передискретизации меньшинства), который может создавать синтетические наблюдения за классом меньшинства.

Недостаточная выборка работает противоположным образом: она удаляет количество выборок в избыточно представленном классе (например, не мошеннические транзакции), чтобы «сбалансировать» набор данных. Самый простой способ уменьшить выборку - это случайным образом удалить наблюдения из класса большинства, но с этим методом наборы данных должны быть достаточно большими, чтобы смягчить последствия удаления точек данных.

Расширение на основе генеративных состязательных сетей (GAN) - еще один метод, популярность которого растет. В то время как передискретизация создает синтетические наблюдения, которые почти идентичны исходным наблюдениям в классе меньшинств, GAN стремятся сделать еще один шаг вперед и генерировать новые, уникальные наблюдения, которые выглядят и ведут себя еще больше как реальные данные.

Эта технология недавно была использована для создания фотографий искусственных лиц через сайт Этого человека не существует. Базовый код - StyleGAN - был написан Nvidia и использует набор данных лиц знаменитостей для создания уникальных изображений со случайным образом измененными визуальными характеристиками (например, формой, размером, позой и цветом волос). В результате получилась удивительная, но и немного тревожная серия гиперреалистичных, но полностью фальшивых снимков головы людей.

В Hazy есть ряд запатентованных алгоритмов генерации синтетических данных, которые расширяют возможности GAN и других связанных алгоритмов. Эти модели интегрируются с нашими инструментами оптимизации синтетических данных и моделей, что позволяет нам выбирать наилучший алгоритм генерации для каждого конкретного случая использования. Таким образом, полученные нечеткие данные оптимизируются для структуры данных каждого клиента, а также для проблемы, которую они хотят решить.

Что это означает для мошенничества с кредитными картами

Банки и финансовые учреждения нуждаются в решении, которое может перебалансировать их наборы данных и правильно идентифицировать как мошеннические, так и не мошеннические транзакции. Но в то же время важно, чтобы алгоритмы могли обнаруживать ложноотрицательные и ложные срабатывания.

Ложные отрицательные описывают прогнозы, которые неправильно помечены как отрицательные. В случае мошенничества с кредитными картами это может означать, что мошенническая транзакция остается незамеченной, и мошенник успешно крадет деньги со счета клиента.

Ложные срабатывания возникают, когда алгоритм неправильно определяет положительное предсказание, когда оно фактически отрицательное. Это, скорее всего, приведет к тому, что банк заблокирует счет клиента за мошенничество, хотя на самом деле его не было.

В конечном итоге, если данные несбалансированы, даже модель с точностью 99% позволит значительному количеству ложноотрицательных и ложных срабатываний проскользнуть через сеть - и только сбалансированный набор данных может предоставить быстрое и эффективное решение, гарантируемое множеством мошенничество в мире финансов.

Приложения вне финансов

Приложение для ребалансировки несбалансированных наборов данных распространяется повсюду. Фактически, любая отрасль, в которой ценную информацию можно почерпнуть из редких событий, столкнется с проблемами несбалансированных данных в статистических моделях.

Например, страховая отрасль построена на моделировании рисков. Редкие события, такие как экстремальные погодные условия или крушение поездов, трудно предсказать в существующих моделях, но в конечном итоге они могут существенно повлиять на ценообразование.

Специалистам в области здравоохранения также крайне сложно выявлять редкие генетические заболевания, поскольку из-за дисбаланса они принадлежат к классу меньшинств. В этой отрасли, где даже один ложноотрицательный результат может означать, что у пациента не диагностирован диагноз, применение эффективных алгоритмов перебалансировки данных о пациентах может буквально стать разницей между жизнью и смертью.

Будущее сбалансировано

Инвестиции в технологии обнаружения мошенничества с годами как увеличивались, так и развивались. Теперь у нас есть сложные методы в области науки о данных, которые пытаются решить проблему дисбаланса данных, такие как передискретизация и недостаточная выборка, и, похоже, на горизонте появляются еще более сложные технологии.

К какому бы методу ни стремились исследователи данных, желаемый результат - это данные, которые действуют и ведут себя естественно, то есть набор данных, который является статистическим эквивалентом набора данных, собранных в реальном мире. Без этого значительное количество мошеннических транзакций по кредитным картам останется незамеченным.