В этой статье я хотел сосредоточиться на метриках оценки для задач классификации. Конечно, есть много ресурсов, чтобы понять эти показатели. На чем мы хотим сосредоточиться, так это на ;

— Что это вкратце?

— Когда или где использовать и что важно?

— В каком случае какой используется?

Некоторые подобные вопросы проясняются.

1) Матрица путаницы

Матрица путаницы — это матрица N x N, используемая для оценки эффективности модели классификации, где N — количество целевых классов. Матрица сравнивает фактические целевые значения с предсказанными моделью машинного обучения.

Матрица путаницы представляет собой табличную сводку количества правильных и неправильных прогнозов, сделанных классификатором. Он используется для измерения производительности модели классификации. Его можно использовать для оценки производительности модели классификации путем расчета показателей производительности, таких как точность, достоверность, полнота и оценка F1.

2. Мера классификации

Точность

  • Это полезно и значимо, когда проблемы классификации хорошо сбалансированы и не перекошены или не имеют дисбаланса классов.

Примеры

  1. Астероид упадет на землю. Хотя наша точность составляет % 99, но это совсем не ценно.

Точность

  • Это ответ на вопрос, какая доля предсказанных положительных результатов действительно положительная? Он используется, когда мы хотим быть очень уверены в нашем прогнозе.

Примеры

  1. Мы хотим посмотреть, следует ли нам уменьшить кредитный лимит на конкретном счете. В этом случае мы хотим быть очень уверены в прогнозе, чтобы избежать недовольства клиентов.
  2. Предположим, что мы хотим найти спам-письма, в этом случае точность должна быть оптимальной, потому что мы не должны упускать из виду настоящие письма.

Напомним (чувствительность)

Он отвечает на вопрос, какая доля фактических положительных результатов правильно классифицирована. Это очень полезная мера, когда мы хотим получить как можно больше положительных результатов.

Примеры

  1. Мы хотим предсказать раковых людей. Мы хотим зафиксировать болезнь, даже если мы не очень уверены.
  2. Нам нужны все потенциальные клиенты. В этом случае мы можем получить потенциальных клиентов как можно больше. Прогноз оказался не совсем верным. Но хотя все они неверны, у нас есть весь потенциал. В этом случае точность низкая, но отзыв высокий. Предположим, мы хотим распечатать выставочную карту. Деньги, которые мы потратили, не имеют значения. Я могу распечатать 1000 выставочных карточек только для 100 потребителей. Важно получить всех клиентов.
  3. Мы хотим определить всех жителей с COVID-19, чтобы избежать заражения. Мы можем предсказать, что большинство жителей будут жителями с COVID-19, хотя это не так. Но все резиденты с COVID-19 будут внутри этой группы. Это Фокус.
  4. В другом вопросе мы должны определить безнадежные кредиты. Если не определить все безнадежные кредиты, их можно воспринять как невыплаченные кредиты. В этом случае банк будет ждать, пока они заплатят. Потому что мы должны определить все плохие кредиты. Если мы придаем значение точности здесь, мы можем принять невыплаченные кредиты как безнадежные кредиты. Это не то, чего мы хотим.

— Последнее объяснение для них обоих:

Если мы хотим определить ядовитые продукты по высокому «отзыву», мы могли бы сказать ядовитые продукты и для неядовитых продуктов. В этом случае мы будем тратить их впустую, и возникает стоимость.

Если мы хотим определить ядовитые продукты с высокой «точностью», мы можем оставить ядовитые продукты внутри неядовитых продуктов. В этом случае может произойти отравление.

«Решите теперь сами, какая цена опаснее».

Оценка F1

Это гармоническое среднее значение точности и полноты от 0 до 1. Мы хотим иметь модель с хорошей точностью и полнотой. Если ваша точность низка, F1 низка, и если отзыв снова низок, ваша оценка F1 низка.

Примеры

  1. Ищем ответ на вопрос, упадет ли астероид на землю. Если это «НЕТ», то точность равна 0. Воспоминание также равно 0. Следовательно, оценка F1 также равна 0.
  2. Как полицейский, вы хотите поймать преступников. Вы хотите быть уверены, что человек, которого вы поймаете, является преступником (Точность), и вы также хотите поймать как можно больше преступников (Возврат).
  3. Тот же пример (безнадежная ссуда) можно привести и к оценке F1. С помощью отзыва мы хотим определить все потенциальные безнадежные кредиты, а с точностью мы хотим определить все фактические безнадежные кредиты. Соотношение обоих должно также быть хорошим для цели. Отзыв должен быть низким, а точность должна быть высокой. Хороший показатель F1 означает, что у вас низкий уровень ложных срабатываний и низкий уровень ложных отрицательных результатов, поэтому вы правильно определяете реальные угрозы и вас не беспокоят ложные тревоги. Оценка F1 считается идеальной, когда она равна 1, а модель полностью проваливается, когда она равна 0.
  4. У нас болезнь. Если мы не сможем определить все болезни, это будет опасно, поэтому мы должны использовать «отзыв». Предположим, что мы вылечимся с помощью определенного лечения. Но это лечение может быть вредным для тех, у кого нет болезни. В этом случае нам нужна модель, чувствительная к обнаружению положительных случаев и столь же точная в своем обнаружении. Вот когда в игру вступает F1 Score. Оценка F1 — это гармоническое среднее точности и полноты, среднее между отношениями точности и полноты.

AUC

AUC — это площадь под ROC-кривой. AUC ROC указывает, насколько хорошо вероятности положительных классов отделены от отрицательных классов. Здесь мы можем использовать кривые ROC для выбора порогового значения.

Выбор порогового значения будет также зависеть от того, как предполагается использовать классификатор.

Среднее микро

Мы рассмотрели, как выбрать показатели оценки для наших данных бинарной классификации. Но что нам делать, если наша цель не «да» или «нет», а состоит из нескольких категорий? Один из способов — подсчитать каждый результат глобально, независимо от распределения внутри класса, и рассчитать метрику. Мы можем добиться этого, используя микросреднее.

Макро Среднее

Другой метод работы с несколькими классами заключается в простом вычислении двоичных показателей для каждого класса. Например, если наша целевая переменная может быть либо кошкой, либо собакой, либо птицей, мы получаем двоичный ответ «да» или «нет» для каждого предсказания. Это кошка? Это собака? Это птица? Это приведет к тому, что количество баллов равно числу наших целевых классов. Затем мы можем агрегировать эти оценки и превратить их в единую метрику, используя макросреднее или средневзвешенное значение.

Заключение

Важным шагом при создании конвейера машинного обучения является сравнение наших различных моделей друг с другом. Неправильный выбор оценочной метрики может нанести ущерб всей вашей системе.

Поэтому всегда следите за тем, что вы прогнозируете, и за тем, как выбор метрики оценки может повлиять на ваши окончательные прогнозы.

Кроме того, выбор оценочной метрики должен хорошо согласовываться с бизнес-целью; следовательно, это немного субъективно.

С уважением

Барис Гюль