После обучения модели классификации ключевым важным шагом является ее проверка на контрольных выборках и проверка производительности модели. В модели классификации доступно множество показателей производительности. Расчет производительности модели в задаче классификации довольно сложен. Прежде чем сделать вывод о производительности модели, всегда следует проверять все показатели производительности и разумно их соблюдать. В дальнейшем чтении мы увидим, почему проверить модель классификации сложнее, чем модель регрессии.

Важные показатели классификации перечислены ниже:

  1. Точность

2. Матрица путаницы

3. Точность

4. Вспомнить

5. F1-счет

6. Чувствительность и специфичность

7. Кривая AUC ROC

Показатели точности:

Простой способ измерить производительность модели классификации — выяснить, сколько раз наша модель предсказывала правильный результат. Точность — это отношение правильных прогнозов к общему количеству прогнозов.

Когда набор данных правильно сбалансирован, имеет смысл использовать только метрики точности в качестве индикатора производительности, но что, если набор данных искажен и несбалансирован?

Давайте возьмем пример, в котором мы предсказываем, принадлежит ли объект классу X или нет. Это пример бинарной классификации, и, учитывая, что у нас есть искаженный набор данных с 10% значений, имеющих вывод «Да», это означает, что набор данных принадлежит классу X, а 90% других записей с выводом «Нет» означает, что выходные данные не принадлежат к классу. ИКС.

В приведенном выше случае, если вы обучите модель с помощью любого простого алгоритма, мы получим точность около 90%.

Почему это так?

Это просто, потому что только 10% значений относятся к классу «Да», поэтому, если вы всегда предполагаете, что вывод «Нет», вы получите точность 90%. Следовательно, в таких случаях всегда лучше искать другие показатели производительности, чтобы прийти к точному выводу.

Матрица путаницы:

Это очень важный показатель производительности, особенно когда мы имеем дело с искаженным набором данных. Матрица путаницы представляет собой таблицу, показывающую правильные и неправильные прогнозы, классифицированные по типу ответа.

Чтобы вычислить матрицу путаницы, нам нужно иметь целевое значение, чтобы его можно было сравнить с предсказанными значениями и вычислить матрицу.

Прогнозируемые результаты — это столбцы, а фактические результаты — это строки. Диагональные числа в таблице показывают правильные прогнозы, а недиагональные элементы записей показывают неправильные прогнозы. Теперь мы рассмотрим, что такое TN, TP, FP и FN.

TN (Истинно отрицательный): это количество результатов, которые предсказывали отрицательный результат и на самом деле были отрицательными.

TP (Истинно положительный): это количество результатов, которые предсказывали положительный результат и были на самом деле положительными.

FP (ложноположительный): это количество результатов, которые предсказывали положительный результат, а на самом деле оказались отрицательными.

FN (ложноотрицательный): это количество результатов, которые были предсказаны как отрицательные, но на самом деле были положительными.

Ложноположительные ошибки также называются ошибками первого типа, а ложноотрицательные ошибки также называются ошибками второго типа.

Хорошая работающая модель всегда должна иметь больше истинно отрицательных и истинно положительных результатов и меньшее количество ложноположительных и ложноотрицательных результатов. Глядя на цифры, можно получить смутное представление о том, как работает модель. Теперь мы рассмотрим дополнительную матрицу, которую можно получить из таблицы матрицы путаницы.

Точность и полнота:

Точность просто означает, насколько точно наша модель предсказывает положительный результат. Другими словами, точность — это мера релевантности результата.

Точность — это отношение истинно положительных результатов к общему количеству положительных прогнозов.

С другой стороны, отзыв измеряет силу модели для предсказания положительного класса. Отзыв называется чувствительностью модели.

Отзыв — это отношение TP к общему количеству реальных положительных классов. Если мы внимательно посмотрим на обе формулы, то легко поймем разницу между ними.

Отзыв также называется процентом истинно положительных результатов (TPR).

Специфичность — еще одна метрика, которая измеряет способность модели предсказывать отрицательные результаты. Специфичность также называют истинным отрицательным показателем (TNR).

Ложноположительный показатель (FPR) — это соотношение отрицательных случаев, которые ошибочно классифицируются как положительные. FPR можно рассчитать как 1-TNR.

Компромисс между точностью и отзывом:

Хорошая модель всегда будет иметь хорошую точность и полноту. Но, к сожалению, это не так. У нас не может быть одновременно и точности, и высокой точности. Повышение точности снижает отзыв и наоборот. Это называется компромиссом между точностью и отзывом.

Вы будете решать точность и отзыв вашей модели на основе приложения, над которым вы работаете. Рассмотрим следующие случаи:

Если вы создаете модель для прогнозирования страховых требований по умолчанию. В этом примере нас больше беспокоят ложные отрицательные значения, означающие, что это заявление по умолчанию, но модель предсказывает «Нет», что может привести к убыткам компании в крорах. В этом сценарии все в порядке, если модель предсказала «Да», говоря, что это случай по умолчанию, но фактическое значение равно «Нет», на самом деле нет значения по умолчанию, что означает ложноположительные случаи. Следовательно, в этом примере важно уменьшить количество ложноотрицательных случаев, что означает, что мы будем использовать модель с высоким отзывом.

Но если мы работаем над моделью обнаружения спама, мы всегда будем рассматривать качество положительного прогноза как точность при обнаружении электронных писем. Если почта менее важна, но не является Спамом, мы не обнаружим ее как Спам. Следовательно, мы не беспокоимся о ложноотрицательных случаях. Здесь мы постараемся уменьшить количество ложных срабатываний, чтобы не расценивать сообщения, не являющиеся спамом, как спам. Следовательно, мы выберем модель с высокой точностью.

Следовательно, хорошей моделью является высокая точность и высокая полнота. Следовательно, чтобы выяснить наилучшую точность и полноту для модели, часто бывает удобно использовать их в одной метрике, называемой F1-показателем. F1-Score — это гармоническое среднее значение точности и полноты. Простое среднее обрабатывает все значения одинаково, тогда как гармоническое среднее придает больший вес низким значениям. Следовательно, классификатор будет иметь высокий балл F1 только тогда, когда точность и полнота будут высокими.

Диапазон оценки F1 составляет [0,1]. В отличие от Accuracy, он дает истинную производительность модели, когда данные несбалансированы. Высокий балл F1 означает, что модель очень точная и надежная.

Кривая AUC ROC:

Учитывая, что вы правильно поняли, что такое FPR, TNR и TPR, теперь вы можете очень легко понять кривую ROC.

Как вы уже видели, компромисс между точностью и отзывом также является другим компромиссом между отзывом (TPR) и специфичностью (TNR). Если ваша модель захватывает большее количество 1, это обычно означает, что ваша модель ошибочно классифицирует больше 0 как 1. Показателем, который фиксирует этот компромисс, является кривая «Рабочие характеристики приемника», в которой отмечается кривая ROC.

Кривая Roc представляет собой график отношения TPR (чувствительность или отзыв) к FPR (1-специфичность). TPR (чувствительность) отложен по оси Y, а FPR (1 — специфичность) отложен по оси X.

Модель находится точно на пунктирной диагональной линии, называемой идеальной случайной моделью, которая имеет точность 50%. По мере продвижения к верхнему левому углу (площадь под кривой становится почти равной 1) точность модели возрастает. Повышение точности означает эту разделимость. С другой стороны, если линия ближе к правому нижнему углу (площадь под кривой становится почти равной нулю), модель начинает совершать возвратно-поступательные движения, и разделимость уменьшается. Это означает, что модель с площадью под кривой, близкой к 0, будет предсказывать 1 и 0, 0 и 1. Если модель имеет площадь под кривой, равную 0,5 (аккуратно к пунктирной диагональной линии), модель не имеет возможности прогнозирования. Если площадь под кривой равна 0,8 означает, что вероятность того, что модель различает положительные и отрицательные классы, составляет 80%.

Компромисс между специфичностью и чувствительностью:

Когда специфичность увеличивается, чувствительность снижается. Теперь давайте попробуем понять кривую ROC. При уменьшении порогового значения количество положительных классов увеличивается, а значит, повышается чувствительность модели. Это очень важно при создании любого медицинского приложения, например, модели обнаружения рака. Как обсуждалось ранее, число ложноотрицательных результатов в таких моделях должно быть меньше, поскольку предсказание «нет» для человека, у которого на самом деле рак, может стоить жизни человеку. Уменьшение количества ложноотрицательных случаев может увеличить количество ложноположительных случаев, но мы вполне согласны с этим в таких формулировках проблемы. Уменьшение ложноотрицательных результатов означает повышение чувствительности.

Если мы увеличиваем порог, количество положительных классов уменьшается, что означает увеличение специфичности и снижение чувствительности. Если вас больше беспокоят ложноположительные случаи в вашей модели, вам следует рассмотреть высокую специфичность или высокое пороговое значение.