На каждом собеседовании в области науки о данных, которое у меня когда-либо было, от стажировки в аспирантуре до должности старшего специалиста по данным, меня просили определить точность и полноту.

Этот вопрос является постоянным фаворитом на собеседованиях, потому что эти две классификационные метрики так часто используются в отрасли. Их легко понять бизнес-пользователям, и они не зависят от особенностей варианта использования. Даже работая с рекомендательными системами, мы используем небольшую вариацию в виде Precision@K и Recall@K.

Итак, как мы определяем эти два термина?

Рассмотрим приведенную выше визуализацию. У нас есть поле релевантныхэлементов и нерелевантных элементов, и модель извлекает некоторые из них (истинные срабатывания и ложные срабатывания). Нерелевантные элементы, которые были получены, являются ложноположительными, или ошибками типа I. Релевантные элементы, которые не были получены, являются ложноотрицательными или ошибками типа II.

Отзыв показывает, насколько хорошо модель справляется с определением всех реальных положительных элементов. Другой способ выразить это так: сколько из всех положительных результатов прогнозируется моделью как положительные. Он также известен как чувствительность или коэффициент истинных положительных результатов, или насколько чувствительна модель к истинным положительным результатам. В нашей визуализации извлеченных и релевантных элементов это доля релевантных элементов, которые получены, или TP/(TP + FN).

Точность измеряет, насколько хорошо модель справляется с определением только истинно положительных результатов. Другими словами, сколько положительных прогнозов верны. Это также известно как положительное прогностическое значение. В нашей визуализации выше это количество релевантных извлеченных элементов, или TP/(TP + FP).

Тесно связанным понятием является специфичность, которая представляет собой истинный отрицательный показатель. Когда ошибки как типа I, так и типа II невелики, полнота, точность и специфичность высоки.

Бывают случаи, когда у вас может быть очень низкая точность и высокая полнота, или наоборот. В этом случае полезной метрикой является оценка F1. Это называется средним гармоническим точности и полноты и отражает общую точность модели. Он рассчитывается как:

2 x (Precision x Recall) / (Precision + Recall) 

or

2 TP / (2TP + FP + FN)

Когда одна метрика низкая, а другая высокая, часто возникает при работе с несбалансированными классами и обнаружением аномалий. Поскольку он дает более целостную картину производительности модели, показатель F1 часто используется в качестве альтернативы точности в сочетании с точностью и полнотой.

Метрики классификации и другие ключевые понятия для работы с моделями в реальных условиях описаны в моей колоде Карточки по машинному обучению: основные концепции моделирования. Посмотрите на Etsy!