Обнаружение аномалий (также известное как обнаружение выбросов) - это процесс поиска объектов данных (точек, событий, наблюдений), поведение которых сильно отличается от стандартных поведенческих паттернов набора данных. Он имеет множество приложений в бизнесе и используется для поиска критических инцидентов, таких как мошенничество, технический сбой, логистические препятствия. Такие объекты называются выбросами или аномалиями.

Один из наиболее важных моментов, позволяющих избежать ошибок - это понимание типа аномалии. Не зная об этом, вы рискуете дать ложные сигналы или пропустить выбросы. Вообще говоря, аномалии делятся на три основные категории - глобальные выбросы, контекстные выбросы и коллективные выбросы.

Глобальные выбросы также известны как точечные аномалии. Это наиболее распространенный тип и соответствует самой основной идее аномалий, которая сосредоточена вокруг двух значений - чрезвычайно высокого и чрезвычайно низкого по сравнению с остальными точками данных. Основная идея обнаружения глобальных аномалий состоит в том, чтобы определить точную величину отклонения, которая отделяет потенциальную аномалию от остальных данных. Глобальные аномалии довольно часто используются в транснациональных аудиторских системах для выявления мошеннических операций. В этом случае глобальные аномалии - это транзакции, которые нарушают общие правила.

Контекстные выбросы также известны как условные аномалии. У них есть значения, которые значительно отличаются от других точек данных того же контекста. Это может быть аномалия в контексте одного набора данных, но не в другом. Эти выбросы часто встречаются в данных временных рядов, поскольку они состоят из последовательности значений во времени, а конкретный период можно рассматривать как конкретный контекст. Значение находится в пределах глобальных ожиданий, но может показаться аномальным в определенных сезонных моделях данных. Контексты почти всегда очень сильно зависят от предметной области.

Когда подмножество точек данных в наборе является аномальным для всего набора данных, эти значения называются коллективными выбросами. Основная идея коллективных аномалий заключается в том, что точки данных, включенные в формирование коллекции, могут не быть аномалиями глобально или контекстно, если рассматривать их по отдельности.

В подходах к обнаружению аномалий также есть три основные группы. Критическим моментом для них является количество выбросов в наборе данных и знания о нем. Первая группа объединяет методы, которые можно использовать без каких-либо предварительных знаний об аномалиях в данных. Самый простой подход - найти точки данных, которые значительно отклоняются от общих статистических свойств распределения, включая среднее значение, медианное значение, режим и квантили. Иногда это может быть визуальный анализ коробчатой ​​диаграммы или гистограммы.

Для неконтролируемой кластеризации необходимы более сложные методы. Это группировка однотипных объектов. Математически это сходство измеряется функциями измерения расстояния, такими как евклидово расстояние, манхэттенское расстояние. Обычно используется кластеризация K-средних с соответствующей мерой расстояния, выбранной эмпирически. Подход преимущественно ретроспективный и аналогичен системе пакетной обработки. Он требует, чтобы все данные были доступны перед обработкой и чтобы данные были статичными. После успешного обучения он может сравнивать новинки с имеющимися данными.

В наиболее распространенных случаях можно выделить два наиболее часто используемых вспомогательных метода: диагностика и приспособление. Диагностический подход выделяет потенциальные удаленные точки, а затем система может удалить эти выбросы как ошибки при будущей обработке набора данных. Многие диагностические подходы итеративно сокращают выбросы, пока не перестанут обнаруживаться выбросы. Основная идея методологии адаптации - включение выбросов в модель распределения и их использование в методах классификации.

Вторая группа подходов к обнаружению аномалий требует предварительно помеченных данных, помеченных как нормальные или аномальные. Он состоит из контролируемых классификационных моделей. Это задача бинарной классификации, проверка принадлежности к единственному. Классификаторы лучше всего подходят для статических данных, поскольку классификация обычно требует нормализации. Этот тип подхода может использоваться для онлайн-классификации, когда классификатор изучает модель классификации, а затем классифицирует новые образцы во время выполнения с помощью изученной модели. Если новый образец относится к области нормальности, он классифицируется как нормальный; в противном случае он помечается как выброс. Для изучения алгоритмы классификации требуют хорошего распределения как нормальных, так и аномальных данных, то есть в наборе данных должно быть достаточно образцов аномальных данных для обучения.

Подходы третьей группы используются для набора данных с очень небольшим количеством аномальных случаев или даже без них. Ненормальные данные часто сложно получить или дорого во многих областях обнаружения неисправностей, таких как мониторинг авиационных двигателей или обнаружение мошенничества. Этот метод требует предварительно помеченных данных, но изучает только данные, помеченные как нормальные. Это похоже на полууправляемую задачу распознавания или обнаружения и может считаться полу-контролируемой, когда преподается обычный класс, но алгоритм учится распознавать аномалии. Эти методы подходят для статических или динамических данных, поскольку они изучают только один класс, который обеспечивает модель нормальности и может изучать модель постепенно по мере поступления новых данных, настраивая модель для улучшения соответствия по мере того, как становится доступным каждый новый образец. Машина опорных векторов (SVM) - один из подходов третьей группы. Обычно это связано с контролируемым обучением, но есть расширения (SVM одного класса), которые можно использовать для идентификации аномалий как неконтролируемых проблем (в которых данные обучения не помечены). Алгоритм изучает мягкую границу нормальных экземпляров данных с помощью обучающего набора, а затем все новые точки данных за пределами этой границы классифицируются как выбросы.