Классификация: основные вещи, которые вам нужно знать

Специалисты по обработке данных часто сталкиваются с проблемой, которая требует автоматического
решения. Классификация считается наиболее важной формой предсказания.

В статистике классификация - это проблема определения того, к какому из набора категорий (подгрупп) принадлежит новое наблюдение, на основе обучающего набора данных, содержащих наблюдения (или экземпляры), принадлежность которых к категории известна. Классификация считается примером контролируемого обучения, т. е. обучения, при котором доступен обучающий набор правильно идентифицированных наблюдений. Соответствующая неконтролируемая процедура известна как кластеризация и включает группировку данных по категориям на основе некоторой меры присущего им сходства или расстояния.

Алгоритм, реализующий классификацию, особенно в конкретной реализации, известен как классификатор. Термин «классификатор» иногда также относится к математической функции, реализованной алгоритмом классификации, которая сопоставляет входные данные с категорией. Большинство алгоритмов возвращают оценку вероятности (склонность) принадлежности к интересующему классу. Затем можно использовать скользящую отсечку для преобразования оценки склонности в решение.

Общий подход заключается в следующем:
1. Установите вероятность отсечения для интересующего класса, выше которого мы
считаем запись принадлежащей этому классу.
2. Оценить (с любой моделью) вероятность того, что запись принадлежит интересующему классу.
3. Если эта вероятность выше вероятности отсечения, назначьте новую запись интересующему классу.
Чем выше отсечка, тем меньше прогнозируемых записей как 1 - то есть принадлежность к интересующему классу. Чем ниже порог, тем больше записей прогнозируется как 1.

В статистике, где классификация часто выполняется с помощью логистической регрессии или аналогичной процедуры, свойства наблюдений называются независимыми переменными (или независимыми переменными, регрессорами и т. Д.), А категории, которые необходимо прогнозировать, известны. в качестве результатов, которые считаются возможными значениями зависимой переменной. В машинном обучении наблюдения часто называются экземплярами, независимые переменные называются функциями (сгруппированы в вектор признаков), а возможные категории, которые необходимо предсказать, - это классы.

Области применения:
1. Компьютерное зрение
2. Медицинская визуализация и анализ медицинских изображений
3. Оптическое распознавание символов
4. Отслеживание видео
5. Открытие и разработка лекарств
6. Токсикогеномика
7. Количественная взаимосвязь структуры и активности
8. Геостатистика
9. Распознавание речи
10. Распознавание рук
11. Биометрическая идентификация < br /> 12. Биологическая классификация
13. Статистическая обработка естественного языка
14. Классификация документов
15. Поисковые системы в Интернете
16. Кредитная оценка
17. Распознавание образов
18.Система рекомендаций.
19.Классификация микромассивов.

Типы классификации в машинном обучении:

1. Бинарная классификация
2. Мультиклассификация
3. Мульти-классификация
4. Смешанная классификация

Источники: 1.Wikipidea 2. Practical-Statistics-for-Data-science.pdf

Классификация: основные вещи, которые вам нужно знать

Вопросы по теме