Понимание показателей производительности в машинном обучении: точность, отзыв, оценка F1, путаница…

Введение:

В мире общения по электронной почте обнаружение спама играет решающую роль в фильтрации нежелательных сообщений. Модели машинного обучения могут использоваться для автоматической идентификации и классификации электронных писем как спама или законных. В этой статье мы рассмотрим оценку модели обнаружения спама с использованием ключевых показателей производительности, таких как точность, полнота, оценка F1, матрица путаницы и AUC ROC.

Пример:

Давайте рассмотрим сценарий, в котором мы построили модель обнаружения спама, используя набор данных из 1000 электронных писем, включая 800 легитимных и 200 спам-писем. После обучения и тестирования модели мы получили следующие результаты:

Матрица путаницы:

Thumbrule: строки — это фактические значения, а столбцы — значения, предсказанные моделью ML.

Точность:

Точность измеряет точность положительных прогнозов, сделанных моделью. В нашем случае он представляет собой долю правильно спрогнозированных спам-писем от всех писем, спрогнозированных как спам. Используя матрицу путаницы, мы можем рассчитать точность как:

Точность = истинные положительные результаты / (истинные положительные результаты + ложные положительные результаты)

= 160 / (160 + 20) = 0.8889

Отзывать:

Отзыв, также известный как чувствительность или доля истинных положительных результатов, измеряет способность модели правильно идентифицировать положительные экземпляры. Он представляет собой долю правильно спрогнозированных спам-писем от всех фактических спам-писем. Используя матрицу путаницы, мы можем рассчитать отзыв как:

Отзыв = истинные положительные результаты / (истинные положительные результаты + ложноотрицательные результаты)

= 160 / (160 + 10) = 0.9412

Оценка F1:

Оценка F1 объединяет точность и полноту в единую метрику. Он обеспечивает сбалансированную меру, учитывающую как ложноположительные, так и ложноотрицательные результаты. Оценка F1 может быть рассчитана как среднее гармоническое точности и отзыва:

Оценка F1 = 2 * (Точность * Отзыв) / (Точность + Отзыв)

= 2 * (0.8889 * 0.9412) / (0.8889 + 0.9412) = 0.9143

АУК ОКР:

AUC ROC измеряет производительность модели бинарной классификации, отображая процент истинно положительных результатов против уровня ложных положительных результатов при различных пороговых значениях классификации. Он количественно определяет способность модели различать спам и законные электронные письма. Чем выше значение AUC ROC, тем лучше дискриминация модели. Для нашей модели обнаружения спама предположим, что мы получили показатель AUC ROC, равный 0,95.

Заключение:

В нашем примере обнаружения спама точность 0,8889 указывает на то, что когда модель предсказывает электронное письмо как спам, она оказывается правильной в 88,89% случаев. Отзыв 0,9412 предполагает, что модель успешно идентифицирует 94,12% реальных спам-писем. Оценка F1, равная 0,9143, сочетает в себе точность и полноту, обеспечивая сбалансированную оценочную метрику. Кроме того, матрица путаницы помогает нам понять производительность модели для разных классов, а показатель AUC ROC, равный 0,95, указывает на сильную способность различать спам и законные электронные письма.

Принимая во внимание эти показатели производительности, мы можем оценить эффективность нашей модели обнаружения спама и принять обоснованные решения относительно ее развертывания. Однако важно отметить, что выбор метрик может варьироваться в зависимости от конкретных требований и приоритетов решаемой проблемы.

В заключение, точность, полнота, оценка F1, матрица путаницы и AUC ROC являются бесценными инструментами для оценки моделей машинного обучения. Они дают представление о различных аспектах производительности модели и могут помочь нам улучшить и настроить наши модели для достижения лучших результатов.

Понимание показателей производительности в машинном обучении: точность, отзыв, оценка F1, путаница…

Введение:

Вопросы по теме