Автор Питер Зыконг Лян

II. Понимание бизнеса

Мое внимание к вопросу обнаружения мошенничества с кредитными картами с помощью алгоритмов машинного обучения привлекло мое недавнее интервью, и в процессе подготовки я наткнулся на блокнот с открытым исходным кодом Машинное обучение для обнаружения мошенничества с кредитными картами — Практическое руководство. » написано Янн-Аэль Ле Борн и Джанлука Бонтемпи. Эти материалы чрезвычайно полезны для меня и будут понятными информативными материалами для всех, кто хочет узнать о выявлении мошенничества с кредитными картами. Я решил посвятить этот пост тому, чтобы организовать свои мысли и краткое руководство по анализу обнаружения мошенничества с кредитными картами.

III. Понимание данных и преобразование функций

Проблема обнаружения мошенничества с кредитными картами относится к отдельному классу, поскольку она обладает множеством уникальных свойств, которые отличают ее от других задач классификации или кластеризации, например, данные о транзакциях по кредитным картам сильно несбалансированы, а это означает, что доля мошеннических операций количество транзакций из всех транзакций несопоставимо с долей подлинных транзакций, доля мошеннических транзакций обычно составляет менее 1%, что создает множество проблем не только с точки зрения методов, используемых для прогнозирования, но и с точки зрения разработки надлежащей производительности. метрики. Помимо этого, из-за характера бизнес-проблемы после того, как алгоритм обнаруживает подозрительные транзакции/счета, процесс расследования требует проверки человеком для последующей работы, и это означает, что высокий уровень ложных срабатываний для прогноза неприемлем, в противном случае , следователи не смогут выполнить такое большое количество предупреждений, поднятых системой обнаружения. Эти проблемы являются лишь небольшой частью уникальных проблем, с которыми мы сталкиваемся при решении проблемы обнаружения мошенничества с кредитными картами. Ниже приведен список уникальных проблем, описанных в Машинное обучение для обнаружения мошенничества с кредитными картами — Практическое руководство. Я выбрал здесь некоторые из наиболее актуальных проблем для моего случая.

Несбалансированность классов. Как я уже упоминал выше, в наборе данных гораздо больше законных транзакций, чем мошеннических, и процент мошеннических транзакций, вероятно, составляет менее 1% в реальном сценарии. Классы дисбаланса будут создавать проблемы для наиболее часто используемых алгоритмов машинного обучения, поскольку они не предназначены для работы с несбалансированными данными.

Дрейф концепции. Это просто означает, что схема мошеннических транзакций со временем будет меняться. Дрейфу концепции способствуют два аспекта. Во-первых, поведение пользователей со временем будет меняться, например, поведение пользователей будет отличаться в дневное и ночное время, в будние и выходные дни, или из-за пандемии пользователи будут чаще покупать в Интернете. Изменение модели поведения пользователей будет способствовать дрейфу концепций. Во-вторых, мошенники будут обновлять свои методы для противодействия усилиям по обнаружению мошенничества с кредитными картами, а это означает, что изучение старых моделей и моделей обучения с использованием исторических данных может не помочь в обнаружении новых методов, используемых в мошеннических транзакциях.

Категорические признаки. Это сложная задача, поскольку алгоритмы машинного обучения не понимают или не могут работать с категориальными переменными, но в случае мошенничества с кредитными картами большая часть информации хранится в виде категориальных переменных, например, номер счета, тип карты, терминал транзакций и т. д. Следует рассмотреть возможность разработки / агрегации функций для преобразования категориальных переменных в числовые переменные для работы с этими переменными. Например, мы можем преобразовать метку времени транзакции в двоичные переменные, чтобы указать, произошла ли транзакция днем ​​или ночью, в будние или выходные дни. Или добавить переменные RFM (давность, частота и денежная стоимость) в набор данных.

Последовательное моделирование. Из-за характера транзакций по кредитным картам данные являются последовательными таким образом, что записи каждого владельца карты или записи каждого терминала представляют собой потоки последовательных данных, поэтому важно смоделировать эту функцию и включать в модель характеристики последовательных данных. Для этого мы можем создать совокупные переменные во времени, например, количество транзакций, совершенных в скользящем окне, скажем, 7 дней, скользящее среднее суммы каждой транзакции за 7 дней, скользящее среднее количество транзакций каждый день, и Т. Д.

Показатели эффективности: поскольку данные о транзакциях по кредитным картам сильно несбалансированы, стандартная метрика измерения для проблемы классификации, такая как средний коэффициент ошибочной классификации, будет вводящим в заблуждение показателем эффективности модели при обнаружении мошенничества с кредитными картами. проблема. Например, если в выборке из 100 транзакций есть только одна мошенническая транзакция, даже если мы применим самую глупую модель, предсказывающую, что каждая транзакция будет легитимной, уровень ошибочной классификации составит всего 1%. Кроме того, из-за сложности структуры затрат, связанных с мошенническими транзакциями, нет простого способа назначить соответствующую стоимость каждому типу ошибки в матрице путаницы. Помимо этого, мы также должны учитывать тот факт, что ресурсы для расследования ограничены, поэтому уровень ложноположительных результатов также является важным фактором. Общая цель состоит в том, чтобы максимизировать обнаружение мошеннических транзакций и свести к минимуму количество ложных срабатываний, что требует от нас оценки моделей с использованием нескольких показателей производительности из-за сложности бизнес-проблемы и компромисса между вычислительными ресурсами, ресурсами расследования и различными расходы, связанные с мошенническими операциями.

IV. Выбор модели

Ниже приведена таблица типичных необработанных данных о транзакциях по кредитным картам. Он имеет уникальный идентификатор для каждой транзакции, отметку времени, идентификатор клиента, который идентифицирует отдельного пользователя, денежную сумму транзакции и индикатор того, является ли транзакция мошеннической (с 0 как действительная транзакция и 1 как мошенническая транзакция). )

Хотя таблица кажется нам интуитивно понятной, алгоритмы машинного обучения не понимают значения категориальных переменных, таких как идентификатор клиента, идентификатор терминала или нечисловая переменная, такая как DateTime.

Для алгоритмов машинного обучения обычно требуются числовые и упорядоченные функции. Числовой означает, что тип переменной должен быть целым или действительным числом. Упорядоченный означает, что порядок значений переменной имеет смысл.

Основываясь на бизнес-понимании проблемы, мы обычно можем выполнить три типа преобразования, чтобы преобразовать эти переменные в числовые переменные, которые помогают с прогнозом.

  1. RFM (новизна, частота, денежная стоимость)
  2. Кодирование риска/частоты
  3. Деревья решений

Первый касается временной метки, как я упоминал в предыдущем разделе. Мы можем создать две функции из метки времени, которые указывают, происходят ли транзакции в дневное или ночное время, в будние или выходные дни. Это будет полезно, поскольку поведение клиентов при транзакциях по кредитным картам будет меняться в зависимости от дня и времени, поэтому добавление этих двух функций поможет алгоритму лучше фиксировать модели действий пользователей.

Второй имеет дело с идентификатором клиента, а также будет создавать функции, описывающие модели поведения пользователей. Следуя подходу RFM, он создает переменные для каждого идентификатора пользователя, которые записывают средние расходы для каждой транзакции и среднее количество транзакций для каждого идентификатора для трех размеров окна (1 день, 7 дней, 30 дней).

Последний имеет дело с идентификатором терминала, будут созданы два типа функций для захвата состояния каждого терминала. Аналогично тому, что мы сделали с идентификатором клиента, мы можем создать переменные, которые отслеживают количество транзакций и количество мошеннических транзакций для разных окон (1 день, 7 дней, 30 дней).

В. Показатели эффективности

Различные алгоритмы ML используются в области обнаружения мошенничества с кредитными картами. Следующая диаграмма представляет собой сводку наиболее часто используемых алгоритмов машинного обучения при исследовании проблемы CCFD.

Как мы видим, при обнаружении мошеннических транзакций используются как контролируемые, так и неконтролируемые методы обучения. Разница здесь в том, что для контролируемого обучения требуется переменная с меткой Y, а это означает, что каждая запись/транзакция должна быть помечена либо как законная, либо как мошенническая транзакция. Существуют как преимущества, так и недостатки различных используемых методов, короче говоря, самый большой плюс методов обучения с учителем заключается в том, что они очень точны и надежны, но недостатки заключаются в том, что они учатся только на исторических данных и раскрывают только шаблон в прошлом. , а это означает, что когда дело доходит до обнаружения новых методов, используемых мошенниками, следователям требуется время на сбор информации, пользователям на отчет и алгоритмам на обучение. Я рассмотрю некоторые из наиболее часто используемых алгоритмов обучения с учителем в последующих частях, но давайте сначала совершим небольшой экскурс в обучение без учителя.

а. Неконтролируемое обучение

В отличие от обучения с учителем, обучение без учителя не требует маркировки каждой записи, и, поскольку это обучение без учителя не требует маркировки данных, оно быстрее реагирует на вновь возникающие схемы мошенничества, неизвестные алгоритму, и то, что стоит за алгоритмом. является простым, независимо от того, классифицируется ли точка данных в большую группу или маленькую группу, и очевидно, что точки данных, которые классифицируются в чрезвычайно меньшую группу, с большей вероятностью будут мошенническими транзакциями, поскольку фактические данные по своей природе несбалансированы. классы с менее чем 1% транзакций являются мошенническими. Неконтролируемое обучение в основном фокусируется на сходстве точек данных и пытается классифицировать и разделить похожие на одну и ту же группу, а для определения сходства такие алгоритмы, как K-средние, обычно вычисляют расстояние между двумя точками данных. Чем короче расстояние от одного до другого, тем больше сходства, тем более вероятно, что они должны быть в одной группе.

б. контролируемое обучение

Цель контролируемого обучения состоит в том, чтобы использовать прошлые данные, чтобы найти взаимосвязь между независимыми/входными переменными (признаками, описывающими транзакции, такими как идентификатор пользователя, отметка времени, идентификатор терминала, сумма транзакции) и зависимой переменной/выходной переменной (транзакция ярлык, Мошеннический или Подлинный). В контексте CCFD цель состоит в том, чтобы использовать входные функции, чтобы предсказать, является ли транзакция мошеннической или нет.

Четыре контролируемых алгоритма обучения чаще всего используются в области обнаружения мошенничества с кредитными картами. Они есть:

  1. Логистическая регрессия
  2. Случайный лес
  3. Повышение градиента
  4. AUC ROC

Я дам краткий обзор каждого алгоритма в следующем разделе.

а. Дерево решений

Подход "Дерево решений" является частью подхода дерева классификации и регрессии (CART), и, поскольку он используется для прогнозирования двоичной переменной, он является классификационной частью подхода CART. Идея дерева решений состоит в том, чтобы разделить данные на основе разных предикторов, и при каждом разделении CART будет разбивать данные на более мелкие группы и делать это рекурсивно. Этот процесс также называется рекурсивным разделением. Решение легко визуализировать, и ниже приведен образец дерева решений.

б. Логистическая регрессия

Модель логистической регрессии имеет переменную ответа Y, которая является категориальной ипозволяет нам оценить вероятность категорического ответа на основе одной или нескольких переменных-предикторов (X). Это позволяет сказать, что наличие предиктора увеличивает (или уменьшает) вероятность данного исхода на определенный процент. Причина, по которой логистическая регрессия больше подходит для задачи обнаружения кредитного мошенничества, чем наиболее часто используемая линейная регрессия, заключается в том, что, хотя обычная линейная регрессия может дать количественный ответ, она не подходит в случае качественного ответа, а линейная регрессия будет давать прогнозы. значения ниже или выше 1, но тогда вероятность дефолта/мошенничества должна быть между 1 и 0, таким образом, результат линейной регрессии не имеет смысла. Логистическая регрессия имеет больше смысла в том смысле, что ее переменная отклика всегда попадает в диапазон [0,1]. Коэффициенты оценок логистической регрессии характеризуют взаимосвязь между предиктором и переменными отклика по логарифмической шкале шансов.

в. Случайный лес

Случайный лес — это метод ансамблевого обучения, означающий, что алгоритм обучает нескольких учащихся и заставляет их вместе решать одну и ту же задачу. В случае случайного леса базовым обучаемым является дерево решений, и он называется случайным лесом, потому что он обучает несколько декоррелированных «деревьев» и, таким образом, становится «лесом». Случайный лес называется «случайным» и отличается от деревьев решений тем, что вводит два случайных компонента. Первым случайным компонентом является введение начальной выборки, что означает, что данные, используемые для выращивания каждого дерева, отличаются друг от друга и, таким образом, уменьшают дисперсию по сравнению с использованием только одного дерева, и это может значительно повысить точность. Этот процесс также называется «бэггинг». Второй случайный компонент, который вводит случайный лес, — это рассмотрение переменных в каждом узле/разделении решений. Бэгинг-трес рассмотрит каждую входную переменную в наборе данных и выберет ту, которая уменьшает наибольшую нечистоту, но это приводит к ситуации, когда, хотя каждое дерево использует разные данные для роста, их структура будет относительно похожа друг на друга, а результаты различных деревьев будут сильно коррелировать друг с другом. Случайные леса вводят рандомизацию разделенных переменных для решения проблемы корреляции деревьев. Это означает, что каждый раз, когда случайные леса ищут разделяемую переменную для узла решения, он учитывает только случайное подмножество независимых переменных вместо использования их всех. Введение двух случайных компонентов приводит к улучшению производительности «из коробки», а это означает, что случайные леса обычно работают хорошо и значительно превосходят одиночное дерево решений при тестировании с невидимыми данными. Конечно, у случайных лесов есть свои минусы. Обучение случайных лесов с использованием большого набора данных займет много времени, особенно если нужно обучить большое количество деревьев в лесу. Кроме того, одним из наиболее часто упоминаемых недостатков является плохая интерпретируемость случайных лесов по сравнению с другими алгоритмами, упомянутыми ранее.

д. Машина повышения градиента

Повышение градиента также является методом ансамблевого обучения. Он отличается от случайного леса — в то время как случайный лес использует несколько деревьев для создания прогноза, бустинг использует слабую модель в качестве базовой модели и строит последовательные слабые модели, которые улучшают предыдущие, но когда эти слабые модели объединяются, они обычно производят мощная модель и может достигать высокой точности. Основная идея GBM заключается в том, что она сначала подгоняет базовую модель к данным. Обычно это «слабая модель» и обычно дерево решений. Следующий шаг — настроить другого слабого ученика для обучения на остатках первого прогноза (остаток = фактическое значение — прогнозируемое значение), и мы добавляем этого нового слабого ученика в предыдущую базовую модель. Продолжайте добавлять слабых учеников в предыдущую модель, пока мы не достигнем определенного уровня или какие-то критерии не скажут нам остановиться. Если не остановиться в нужном месте, усиление градиента также может привести к проблеме переобучения, и решение о том, когда остановиться, также является важным шагом при настройке модели.

а. Пороговые показатели

VI. Сноски

Типичная проблема обнаружения мошенничества будет основываться на предсказании вероятности того, что транзакция будет мошеннической или подлинной, а это означает, что модель машинного обучения будет производить только вероятность того, что случай будет мошенническим, а не предсказывать подлинность или мошенничество, в этом случае это важно установить соответствующий порог для определения классов. Это может быть сложно, так как если мы установим слишком высокий порог, многие мошеннические транзакции с потенциально высоким риском не будут помечены как мошеннические транзакции, что приведет к высокому уровню ложноотрицательных результатов; с другой стороны, если мы установим слишком низкий порог, это означает, что у нас слишком строгий стандарт и что мы не классифицируем множество транзакций с низким уровнем риска как мошеннические, что приведет к высокому уровню ложноположительных результатов и увеличивая нагрузку на более поздний процесс расследования.

После того, как мы установили порог i, результаты классификации можно обобщить в таблице 2 на 2, которая называется матрицей путаницы. В столбцах указаны фактические классы, а в строках — предсказанные случаи. Это выглядит как на рисунке ниже.

В таблице есть четыре возможных исхода,

TN: True Negative, когда классификатор правильно предсказывает подлинную транзакцию.

TP: True Positive, когда классификатор правильно предсказывает мошенническую транзакцию.

FP: ложное срабатывание, когда классификатор неправильно предсказывает, что подлинная транзакция является мошеннической транзакцией.

FN: False Negative, когда классификатор неправильно предсказывает мошенническую транзакцию как подлинную транзакцию.

Многие метрики могут быть получены из матрицы путаницы, например, наиболее простой из них является средняя ошибка неправильной классификации (MME). MME рассчитывается как сумма неверных прогнозов, деленная на размер набора данных. Хотя это интуитивно понятно, это вводящая в заблуждение метрика, когда речь идет об обнаружении мошенничества с кредитными картами. Помните, что набор данных сам по себе сильно несбалансирован, а это означает, что мошеннических транзакций будет гораздо меньше, чем подлинных транзакций, но при расчете MME веса, присвоенные ложноотрицательному и ложноположительному результату, одинаковы. Это противоречит реальной ситуации, когда неправильная классификация двух мошеннических дел не совпадает с неправильной классификацией двух подлинных дел. Простой пример может проиллюстрировать это более четко. Представьте себе набор данных со 100 транзакциями, и только 2 транзакции являются мошенническими. Здесь мы тестируем два разных пороговых значения: 1 и 0,3. Первый означает, что модель предсказывает подлинность всех транзакций, поэтому она неверно классифицировала только два случая (два ложноотрицательных) и имеет MME 2%; если второй правильно предсказывает 2 мошеннических транзакции, но неправильно предсказывает два подлинных случая как мошеннические (два ложных срабатывания), MME по-прежнему составляет 2%. Основываясь на MME, эти два случая одинаковы, но мы все знаем, что первый совершенно бесполезен.

Помимо MME, у нас также могут быть другие метрики на основе порогов, полученные из матрицы путаницы. Глядя на Столбцы, мы можем иметь Истинный положительный показатель и Истинно отрицательный показатель. Знаменатели этих двух матриц представляют собой сумму столбцов, одна из которых представляет собой сумму всех подлинных случаев, а другая — сумму всех мошеннических случаев.

TPR = отзыв/чувствительность = TP / P(все мошенничество) = TP/(TP + FN)

Он измеряет долю Fradulent, которая правильно идентифицирована.

TNR = TN / N (все подлинные) = TN / (TN + FP)

Он измеряет долю подлинного, которая правильно идентифицирована.

Их дополнительные показатели также могут быть рассчитаны,

Коэффициент ложных срабатываний (FPR) = 1 — TNR

Он измеряет долю подлинных документов, ошибочно идентифицированных как поддельные.

Коэффициент ложноотрицательных результатов (FNR) = 1 — TPR

Он измеряет долю мошеннических транзакций, которые ошибочно идентифицируются как подлинные.

У нас также есть построчные метрики. Для построчных метрик знаменатели будут представлять собой сумму прогнозируемого подлинного и прогнозируемого мошеннического.

Точность = TP / (TP + FP) = TP / P_hat (прогнозируется как мошенничество)

Он измеряет долю класса, предсказанного как мошеннический, который является правильным.

Другие метрики по строкам не так важны, и, чтобы избежать путаницы, я бы не стал их сейчас упоминать.

Поскольку бизнес-проблемой здесь является CCFD, а данные сильно несбалансированы, метрика, называемая F1-счетом, считается подходящей для этой несбалансированной проблемы. Он определяется как:

F1-баллы = 2 * (точность * отзыв) / (точность + отзыв)

Все вышеперечисленные меры будут доступны только после того, как у нас будет матрица путаницы, а это означает, что необходим определенный порог.

б. Безпороговые показатели

Что, если мы не сможем выбрать подходящий порог для матрицы путаницы? Как мы можем оценить результат и производительность классификатора? В этой ситуации помогут беспороговые метрики, которые оценивают диапазон порогов. Двумя наиболее часто используемыми показателями являются кривая рабочих характеристик приема (ROC) и кривая Precision-Recall (PR).

ROC — это график зависимости TPR от FPR для всех порогов в [0,1]. Мы видим, что сплошная черная линия находится выше прерывистой задней линии во всех точках, что означает, что K-линия (черная линия) доминирует над W-линии (прерывистая линия), и в этом случае K-линия является явным победителем. . В случае отсутствия доминирующего отношения мы использовали площадь под кривой (AUC) для измерения производительности. Диагональная серая линия имеет AUC 0,5, и классификатор, который делает случайные предположения для всех случаев, будет иметь ROC-кривую этой серой линии.

  1. Машинное обучение для обнаружения мошенничества с кредитными картами — Практическое руководство

2. Кривая Precision-Recall (кривая PR)

ROC — это график зависимости точности от TPR (отзыва) для всех порогов [0,1]. Преимущество этой метрики в том, что она помогает выбирать классификаторы, которые имеют как высокую истинную положительную скорость, так и высокую точность. Подобно кривой AUC ROC, сама кривая иногда не является самым прямым измерением, которое мы можем использовать для сравнения классификаторов, для кривой RP мы можем иметь среднюю точность. Определение АП выглядит следующим образом:

Мы будем использовать среднюю точность (AP), которая суммирует такой график как средневзвешенное значение точности, достигнутой при каждом пороговом значении, с увеличением отзыва по сравнению с предыдущим пороговым значением, используемым в качестве веса [«BEP13», «FZ11»].

где Pn и Rn — точность и полнота на n-м пороге.

AP=∑ (R_n−R_n−1)∗ Pn

3. Показатель Precision Top K

Этот метод в первую очередь касается способности компании расследовать предупреждения, выдаваемые системой обнаружения мошенничества. Предположим, что максимальное количество предупреждений, которые могут проверить следователи в компании, равно K, метрики вычисляются следующим образом:

Точность top-k для дня d = количество истинно положительных предупреждений / K

Метрика называется точностью top-k, потому что она ранжирует транзакции по вероятности мошенничества в порядке убывания и вычисляет точность только для первых K транзакций. Предположим, что K равно 100, если для дня d из 100 транзакций с самым высоким риском мошенничества 25 транзакций были помечены классификатором как мошеннические, то точность top-k для дня d равна 0,25.

Подобно Precision top-k, у нас также может быть полезная метрика Card Precision top-k. Идея здесь в том, что мы используем счет/карту как единицу, а не транзакцию. Для этого просто измените предыдущую метрику. У нас может быть Card Precision top-k как количество предупреждений об учетных записях/картах, которые действительно положительны / K, где K — это номер идентификатора клиента, который следователи могут проверить за день. Процесс ранжирования транзакций становится ранжированием идентификатора клиента, где риск, присвоенный каждой учетной записи, представляет собой максимальную вероятность мошенничества транзакций, зарегистрированных под идентификатором клиента.

Подводя итог полной процедуры обнаружения мошенничества с кредитными картами, непростая работа, и этот пост ни в коем случае не является исчерпывающим освещением темы. Тем не менее, этот пост должен, по крайней мере, помочь новичку указать направление для дальнейших исследований в этой области. Большая часть содержания этого поста представляет собой смесь содержания из «Машинное обучение для руководства по обнаружению мошенничества с кредитными картами», моего понимания предмета и некоторых моих заметок в классе. какие-либо ошибки в сообщении или есть какие-либо вопросы, пожалуйста, не стесняйтесь комментировать!

VII. Ссылка

2. C Виктория Присцилла и D Падма Прабха. Обнаружение мошенничества с кредитными картами: систематический обзор. В Международной конференции по информационным, коммуникационным и вычислительным технологиям, 290–303. Спрингер, 2019.

Двоичное кодирование

  1. Это дерево решений принимает данные о длине и ширине лепестков, чтобы предсказать вид цветка. Из графика видно, что дерево решений состоит из трех компонентов: узлов решений, ветвей и конечных узлов. В этом случае длина лепестка и ширина лепестка являются узлами решения, а Setosa, Versicolor и Virginica — узлами-листьями. Дерево растет сверху вниз, и первый решающий узел, длина лепестка, является «корнем» дерева, а наименьшая подгруппа, Setosa, Versicolor и Virginica, является «листьями». Каждый узел решения в дереве представляет собой входную переменную/предиктор, которая используется для прогнозирования. В каждом узле алгоритм выберет как наилучшую переменную, так и точку отсечки, применимую к разделению. Решение о переменной и отсечении основано на расчете «примеси», что означает, что цель состоит в том, чтобы достичь наибольшего сходства/однородности в каждой подгруппе после разделения. Для измерения нечистоты в параметрах классификации мы используем как «индекс Джини», так и «энтропию» (прирост информации). Еще одна ключевая проблема заключается в том, когда остановить разбиение, и вы можете задаться вопросом, почему бы нам просто не разработать все дерево, а затем решить проблему? Две основные причины: во-первых, в зависимости от данных деревья могут быть слишком большими для роста из-за размера данных и количества переменных, и, таким образом, сложность окончательного классификатора сделает процесс нерентабельным; во-вторых, более важная причина заключается в том, что сложное дерево будет страдать от «переобучения» и, таким образом, будет плохо работать при обобщении невидимых данных. Однако, если дерево слишком общее, оно будет страдать от высокой дисперсии, и это означает, что у нас есть компромисс между риском переобучения и риском высокой дисперсии прогнозов. Чтобы найти этот баланс, мы обычно выращиваем очень большое дерево, как определено в , а затем «обрезаем» его обратно, чтобы найти оптимальное поддерево. В этом посте не рассматривается, как лучше всего сохранять баланс, и если вам интересна эта тема, публикация на Medium «TowardDataScience» должна помочь вам начать. Дерево решений (или CART) имеет свои сильные и слабые стороны. Для профессионалов деревья решений легко интерпретировать, а после обучения процесс прогнозирования становится быстрым и легким в вычислениях; дерево решений также сообщает, какие переменные важны для прогноза — просто взгляните, какие переменные используются для построения дерева. Минусы дерева решений также очевидны, как я уже упоминал, сложное дерево будет иметь проблему переобучения, а простое дерево приведет к высокой дисперсии.
@book{leborgne2021fraud,
title={Machine Learning for Credit Card Fraud Detection - Practical Handbook},
author={Le Borgne, Yann-A{\"e}l and Bontempi, Gianluca},
url={https://github.com/Fraud-Detection-Handbook/fraud-detection-handbook},
year={2021},
publisher={Universit{\'e} Libre de Bruxelles}
}

3. Чжан, Чжунхэн. 2016. «Моделирование дерева решений с использованием R». Анналы трансляционной медицины 4 (15).

Обнаружение мошенничества с кредитными картами: примечание к анализу CCFD