Классификация — это метод контролируемого машинного обучения, используемый для прогнозирования того, к какому классу принадлежат точки данных.

Одним из наиболее важных этапов любого рабочего процесса машинного обучения является оценка обученной модели. На этом этапе обученная модель используется для прогнозирования невидимых (не используемых в обучении) помеченных данных. Модель оценивается на основе того, сколько прогнозов было правильным.

Но то, сколько предсказаний модель сделала правильно, не всегда будет хорошим показателем для оценки производительности модели. Мы должны принять во внимание, сколько предсказаний было неверным и насколько они были неверны — был ли положительный класс предсказан как отрицательный или наоборот.

Например, если мы предсказываем, является ли опухоль раковой или нет, все будет в порядке, если модель неправильно предскажет опухоль как раковую, а не пропустит ее для диагностики раковой опухоли. С другой стороны, если мы предсказываем, является ли электронное письмо спамом или нет, модель будет считаться более хорошей, если она не идентифицирует спам, чем идентифицирует важное письмо как спам.

Итак, нам нужно использовать разные показатели, чтобы оценить модель на основе имеющейся проблемы и оптимизировать компромисс между различными результатами.

Давайте рассмотрим различные метрики классификации и то, как их можно использовать для оценки модели в разных случаях.

Точность

Точность модели — это просто количество правильных прогнозов, деленное на общее количество прогнозов.

Точность будет иметь значение от 0 до 1, а значение 1 указывает, что все прогнозы, сделанные моделью, верны.

Точность часто может вводить в заблуждение, например, в несбалансированных наборах данных, где один класс имеет большое количество записей по сравнению с другим. Например, если наш набор данных об опухолях содержит только 1% данных о раке, то модель может предсказать все данные как доброкачественные и получить оценку с точностью 99%. Эта модель бесполезна и очень опасна.

Матрица путаницы

Матрица путаницы представляет собой табличную сводку количества правильных и неправильных прогнозов, сделанных моделью. Матрица путаницы широко используется из-за того, что она дает лучшее понимание производительности модели, чем точность.

  • Истинно положительный:прогнозируемое значение верно, и фактическое значение также верно.
  • Ложное срабатывание: прогнозируемое значение верно, но фактическое значение ложно.
  • False Negative: предсказанное значение неверно, но фактическое значение верно.
  • True Negative: прогнозируемое значение ложно, и фактическое значение также ложно.

Матрица путаницы чрезвычайно полезна, поскольку ее можно использовать для расчета других показателей классификации, таких как точность, отзыв, оценка F1 и т. д.

Точность

Точность используется для оценки того, насколько хорошо модель определяет положительный класс. Проще говоря, сколько из всех предсказаний для положительного класса оказались на самом деле верными?

Точность можно использовать для оптимизации модели, чтобы уменьшить количество ложных срабатываний. Таким образом, эту метрику можно использовать в случае примера обнаружения спама в электронной почте.

Отзывать

Отзыв или чувствительность измеряют, насколько хорошо модель правильно предсказывает все положительные наблюдения в наборе данных. Проще говоря, сколько из всего фактического положительного класса было правильно идентифицировано как положительное?

Напомним, можно использовать для оптимизации модели, чтобы уменьшить количество ложных отрицательных результатов. Таким образом, эту метрику можно использовать в случае примера прогнозирования раковой опухоли.

Обычно точность и полнота используются вместе для построения графика точности и полноты, чтобы визуализировать компромисс между ними.

F1-счет

F1-Score объединяет информацию, предоставленную точностью и полнотой, в одно значение. Это гармоническое среднее между точностью и полнотой.

F1-Score — это значение от 0 до 1. Высокий F1-Score указывает на высокую точность и полноту.

Оценка F1 используется при наличии несбалансированного набора данных. Он также используется для сравнения производительности различных алгоритмов машинного обучения.

Статистика Каппы Коэна

Статистика Каппа сравнивает прогнозы, сделанные моделью, со случайным предположением на основе частоты каждого класса.

Каппа всегда меньше 1 и может быть отрицательным. Хотя не существует стандартизированного способа интерпретировать его значение, Лэндис и Кох предложили способ охарактеризовать значение.

Значение Каппа используется при наличии несбалансированного набора данных и в задачах классификации с несколькими классами.