Как выбрать метрики для оценки модели

В современном мире мы все знаем, что машинное обучение, искусственный интеллект — эти технологии являются решением для любой задачи. Вы все знаете, насколько рискованной является работа над человеческим интеллектом при обучении машины с помощью языка программирования и математики.

Как-то мы пытались заставить модели научить машины понимать задачу, которую мы хотим, чтобы они выполняли за нас.

Но как мы на них полагаемся?

Вот почему, чтобы быть уверенным в машинах, независимо от того, работают ли они в соответствии с человеческим интеллектом или нет, мы должны их оценить.

Да, машина тоже должна получить оценку.

Теперь у вас возникнет вопрос, как мы можем оценить любую машину? Как это возможно?
Чтобы ответить на ваш вопрос, да, мы также можем оценить машины….

Как?

Чтобы научить машину выполнять различные задачи, которые мы, люди, хотим, чтобы машина выполняла, мы должны обучить различные алгоритмы с помощью математики, статистики и логики. Мы называем весь этот набор комбинаций всех этих вещей моделью.

Для оценки этих моделей существуют разные методы. Из чего мы можем решить, какие изменения мы должны внести в нашу модель для достижения желаемых результатов.

Ниже приведены различные методы оценки моделей:

Матрица путаницы
Точность
Точность
Отзывать
Оценка F-бета (оценка F-1)
Кривая ROC, AUC
Средняя квадратическая ошибка
Скорректированная ошибка R²
Перекрестная проверка и задержка

Матрица путаницы

Матрица путаницы – это матрица N x N, используемая для оценки эффективности модели классификации, где N – количество целевых классов.
Матрица сравнивает фактические целевые значения с предсказанными моделью машинного обучения. Это дает нам целостное представление о том, насколько хорошо работает наша модель классификации и какие ошибки она допускает.

Теперь вы скажете, зачем нужна матрица путаницы?
Таким образом, пока мы не знаем, какие точки данных являются TP или TN, мы не можем оценивать какие-либо показатели.

Точность

Точность определяется как процент правильных прогнозов для тестовых данных. Его можно легко рассчитать, разделив количество правильных прогнозов на общее количество прогнозов.

Предполагается, что точность является хорошей мерой для оценки, когда набор данных сбалансирован.
Когда набор данных несбалансирован, точность не может быть хорошей мерой производительности, поскольку она не может распознать предвзятость модели.
Бывший. У вас есть 100 точек данных, распределенных 90 одного класса и 10 другого класса. Таким образом, наша модель должна правильно классифицировать обе метки, а модель правильно классифицирует обе метки или нет, это не соответствует метрикам точности.
Может модель рассматривает только одну сторону медали, но другая сторона медали имеет не меньшее значение. Вот почему в этом случае вы должны смотреть на другую метрику оценки.
Здесь вступают в игру Точность и Отзыв.

Точность

Точность – это качество прогноза, сделанного моделью.
Под точностью понимается количество истинных срабатываний, деленное на общее количество положительных прогнозов (т. е. количество истинных срабатываний плюс количество ложных срабатываний).

Точность важна, когда ложное срабатывание ( FP ) важно в постановке задачи. Чтобы уменьшить FP, мы должны повысить точность путем настройки модели.

Отзывать

Отзыв — это показатель того, что наша модель правильно идентифицирует истинные положительные результаты.
Он также известен как чувствительность или истинно положительный показатель (TPR).

Отзыв имеет большее значение, когда ложноотрицательный результат имеет большее значение в постановке задачи. Он должен быть высоким, когда FN важен.

Оценка F-бета

Оценка F-Beta не что иное, как оценка F-1. Мы можем определить значение бета в соответствии с требованием постановки задачи.
Как правило, большинство людей выбирают бета-значение 1, поэтому оценка F-1 наиболее известна.
когда точность и полнота одинаково важны, предполагается, что оценка F-1 является хорошим показателем для оценки.
Когда данные необъективны или искажены, оценка F-1 является действительно хорошей метрикой для оценки модели.

Когда FP важна в формулировке проблемы, уменьшите бета-версию, а когдаFN важна в формулировке проблемы , затем увеличьте бета-версию

Кривая ROC-AUC

Полная форма ROC — это Рабочие характеристики приемника, а AUC — это Площадь под кривой.
Это популярный график для одновременного отображения компромисса между истинно положительными показателями ( TPR ) и ложными положительными показателями ( FPR ) для бинарного классификатора при различных пороговых значениях классификации.
Модель, которая дает кривые ближе к верхнему левому углу, указывает на более высокую производительность.
Чем ближе кривая подходит к 45-градусной диагонали пространства ROC, тем менее точна производительность.
Если AUC большой, это указывает на хорошую производительность модели.

Средняя квадратическая ошибка

RMSE используется для оценки регрессионной модели.
Значение RMSE говорит нам о среднем отклонении между прогнозируемым значением по модели и фактическим значением.

Если значение RMSE меньше, то модель работает очень хорошо.

Скорректированная ошибка R²

Этот показатель используется для оценки регрессионной модели.
Он наказывает атрибуты, которые не связаны друг с другом.
Когда независимые функции увеличиваются, скорректированный R² уменьшается. Это происходит только тогда, когда добавленные независимые функции не связаны друг с другом.
Если добавляются сопутствующие функции, скорректированное значение R² увеличивается.

Скорректированное значение R² всегда меньше или равно значению R².

Перекрестная проверка и задержка

Удержание — это метод, при котором набор данных разделяется на два набора, называемых Обучающий набор и Тестовый набор.
Перекрестная проверка — это метод обучения модели на разных подмножествах набора данных и проверки на разных наборах тестовых данных в соответствии с обучением.
При перекрестной проверке он усредняет показатели всех тестов и выдает результат. Преимущество перекрестной проверки заключается в том, что наша модель обучается на всех типах данных, поэтому производительность модели автоматически улучшается.

Как выбрать метрики для оценки модели

Ниже приведены различные методы оценки моделей:

Матрица путаницы

Точность

Точность

Отзывать

Оценка F-бета

Кривая ROC-AUC

Средняя квадратическая ошибка

Скорректированная ошибка R²

Перекрестная проверка и задержка

Надеюсь, вам всем понравилась эта статья. Пожалуйста, предлагайте свои мысли и отзывы в комментариях.

Вопросы по теме