Обнаружение аномалий является одним из основных вариантов использования для большинства предприятий с широким спектром приложений от обнаружения аномалий для очистки данных до предварительной обработки данных перед проектированием машинного обучения и статистических моделей, до приложений в беспилотных автомобилях, профилактического обслуживания. (PdM) для диагностики состояния машины, определения состояния здоровья по медицинским изображениям, выявления аномальных паттернов в транзакциях по кредитным картам, кибербезопасности и многого другого.

К сожалению, многие как популярные статьи, так и отраслевая практика слишком много внимания уделяют упрощенным методам, основанным на очень ограничительных предположениях о распределении данных (таким как подходы типа 3-сигма, которые полагаются на данные, имеющие нормальное распределение), старым методам интеллектуального анализа данных, таким как KNN (изобретен в 1951 г.) и использование библиотек прогнозирования, таких как Facebook Prophet, для обнаружения аномалий.

Такие методы почти гарантированно не сработают, потому что они ненадежны, не имеют встроенных математических гарантий и полагаются либо на упрощенные методы интеллектуального анализа данных 1950-х годов (KNN), либо на ограничительные предположения, такие как нормальность, которая редко наблюдается на реальных данных, таких как состояние машины, модели спроса с длинным хвостом и так далее. Что еще более важно, так как метки наземной истины редко доступны для обнаружения аномалий.

Между тем использование инструментов прогнозирования для диагностики аномалий сродни обращению к юристу с просьбой предоставить медицинский диагноз. Хотя на первый взгляд прогнозирование и обнаружение аномалий могут быть связаны (теоретически), на практике нет ничего более далекого от реальности. Чтобы метод прогнозирования успешно выполнял второстепенную функцию обнаружения аномалий, он должен сначала успешно прогнозировать, в действительности, полагаясь на метод прогнозирования для обнаружения аномалий, пользователь откроет решение для двойного уровня риска. Первый уровень будет связан с тем, что модель прогнозирования (скорее всего) не будет давать точного точечного прогноза [именно поэтому при прогнозировании лучше использовать вероятностный прогноз], второй уровень будет заключаться в том, что даже если точечный прогноз был на месте нет четкого способа [в отсутствие хороших интервалов прогнозирования] установить, какая величина отклонений приведет к аномалиям.

Иллюстрация — пророк Facebook — это алгоритм прогнозирования, который редко (когда-либо?) дает хорошие прогнозы по сравнению с другими алгоритмами, результат использования кем-то для обнаружения аномалий будет катастрофическим из-за крайне неточных точечных и вероятностных прогнозов.

https://valeman.medium.com/benchmarking-facebook-prophet-53273c3ee9c6

Если бы кто-то использовал пророк Facebook, чтобы попытаться обнаружить аномалии, результатом было бы отсутствие истинных аномалий, а также из-за значительно неверно откалиброванных и чрезмерно уверенных интервалов прогнозирования, созданных пророком Facebook, алгоритм будет давать много ложных срабатываний, быстро приводящих к усталости пользователя. и много ложных срабатываний.

Из-за вышеперечисленных проблем в академических кругах исследования в области прогнозирования и обнаружения аномалий редко пересекаются — разные исследовательские лаборатории специализируются на том или ином по очень веским причинам — потому что прогнозирование и обнаружение аномалий — это фундаментально и концептуально разные задачи [по крайней мере, до тех пор, пока одной не удалось произвести хрустальный шар, который дает как точные точечные прогнозы, так и, что более важно, вероятностные прогнозы для модели данных без предположений.]

Таким образом, лучший подход к обнаружению аномалий состоит в том, чтобы решить проблему обнаружения аномалий как есть, полностью минуя этап прогнозирования [при прогнозировании аналогичная аналогия будет состоять в том, чтобы полностью обойти этап вывода и сосредоточиться непосредственно на прогнозах, поскольку вывод является одновременно ненужным и рискованным этапом, когда все может измениться. идут очень неправильно — вот почему лучшие современные системы прогнозирования и прогнозирования не предполагают и не используют параметры.]

Итак, со всеми приведенными выше аргументами в пользу обнаружения аномалий, как можно получить «Святой Грааль» 1) эффективного и надежного 2) свободного от предположений 3) непараметрического обнаружения аномалий.

Conformal Prediction — самая успешная структура непараметрического прогнозирования без предположений, успешно принятая ведущими отделами машинного обучения / статистических исследований в США, такими как Беркли, Карнеги-Меллон, Стэнфорд, Чикаго и такими компаниями, как DeepMind, предлагает ответ.

Конформное прогнозирование успешно решает количественную оценку неопределенности для классификации машинного обучения или задач регрессии/прогнозирования уже более двух десятилетий.

Однако мало кто знает, что конформное предсказание также является механизмом обнаружения аномалий, управляющим обнаружением аномалий в Microsoft Azure под капотом.

Почему Microsoft выбрала детектор конформных аномалий в качестве своего алгоритма рабочей лошадки для Azure — просто потому, что он работает, надежен и, что более важно, математически гарантированно работает, поскольку он основан на структуре конформного прогнозирования, основанной на ракетной математике научного уровня, берущей начало в колмогоровской теории случайности, а также подходов, успешно используемых в статистической физике.

Обнаружение конформных аномалий (CAD) также заняло одно из первых мест в престижном соревновании по тестированию аномалий Numenta, превзойдя большинство других альтернатив, включая байесовское обнаружение точек изменения, детектор аномалий Twitter и многие другие.

Таким образом, обнаружение конформных аномалий (CAD) является одновременно хорошо зарекомендовавшим себя подходом, который в течение нескольких лет обеспечивает обнаружение аномалий в бесчисленных компаниях по всему миру с помощью Microsoft Azure, а также динамичной областью академических исследований, в которой используется множество современных алгоритмов обнаружения аномалий. основанные на конформном предсказании, быстро развиваются.

Подобно конформному прогнозированию, CAD основан на сильном и надежном математическом подходе и свободен от субъективной предвзятости, вызванной такими понятиями, как априорные значения и параметры, и является полностью непараметрическим и свободным от распределения.

А с помощью библиотек с открытым исходным кодом каждый может совершить скачок от обнаружения аномалий 1.01 к современным методам обнаружения аномалий.

Можно спросить, как можно начать с CAD (обнаружение конформных аномалий)?

На Medium есть легкодоступная статья, объясняющая основы (включая код Colab), а также научные статьи в комментариях. На GitHub есть код для подхода CAD KNN, который занял одно из первых мест в конкурсе Numenta.

Ресурсы:







Блокнот Google Colab: