И несколько примеров его более практического использования

По своей сути наука о данных — это разработка моделей данных, которые позволяют нам предсказывать что-то о мире. И наши прогнозы в основном попадают в 4 разных класса моделей. Изучение этих классов имеет основополагающее значение для успешного старта в науке о данных и формирования эффективного мышления для преобразования реальных проблем в проблемы науки о данных.

Другими словами, подавляющее большинство реальных проблем попадают в один из 4 классов проблем науки о данных. В информационном бюллетене на прошлой неделе мы представили их и включили некоторые подклассы, которые информативны для рассмотрения. Основные 4 класса:

- Классификация

- Регрессия

- Прогнозирование

- Кластеризация

Здесь я сосредоточусь на классификации.

Напомним, что наука о данных — это использование данных для построения моделей, которые помогают нам предсказывать события в мире. Классификация — это процесс обучения на основе старых данных для правильной классификации новых данных. То есть предсказать, к какому классу или группе должны принадлежать новые данные.

Это похоже на кластеризацию, однако в классификации мы знаем, как следует классифицировать старые данные, тогда как при кластеризации мы не знаем, как следует группировать данные. Таким образом, мы называем классификацию контролируемой, а кластеризацию — неконтролируемой.

Многие реальные проблемы можно назвать проблемами классификации. Давайте посмотрим на некоторые из них:

1. Классификация документов

а. Реальная проблема: сотрудник компании перегружен чтением цифровых PDF-файлов, чтобы решить, следует ли ему перейти в одну из множества разных команд.

б. Задача науки о данных: построить модель классификации, которая может классифицировать, какие документы принадлежат каким командам. Чтобы построить решение, нам нужно будет либо преобразовать PDF-файлы в изображения и обучить модель сверточной нейронной сети (CNN), либо использовать OCR для извлечения текста, создания функций из этого текста, а затем обучить модель классификации на основе текста.

2. Прогноз кликов по объявлениям

а. Настоящая проблема: у маркетинговой команды есть несколько рекламных объявлений, которые они хотят использовать на веб-сайте своей компании, но не знают, какое из них выбрать для разных пользователей.

б. Проблема науки о данных: создайте модель классификации, которая классифицирует, какие пользователи с большей вероятностью нажимают на определенные объявления. Чтобы создать решение, нам нужно будет использовать исторические пользовательские данные о кликах по рекламе и создавать пользовательские функции для обучения модели классификации, которая предсказывает, будут ли они нажимать.

3. Классификация состояний болезни

а. Настоящая проблема: медицинская компания хочет предоставить информацию пациентам, у которых, возможно, развилось хроническое заболевание, чтобы снизить стоимость лечения, связанного с ранним выявлением.

б. Задача науки о данных: построить классификационную модель, которая определяет вероятность того, что у кого-то есть заболевание, учитывая исторические медицинские особенности и особенности пациента. Чтобы построить эту модель, нам необходимо определить момент времени, когда у пациентов было диагностировано заболевание, и случайную выборку пациентов, у которых заболевание не было диагностировано вовремя, получить признаки до даты постановки диагноза, а затем обучить модели для классификации каждой группы пациентов.

На самом деле многие бизнес-проблемы можно переформулировать как проблемы классификации в науке о данных. Алгоритмы, поддерживающие классификацию, могут быть либо бинарными классификаторами, либо многоклассовыми классификаторами, либо многоуровневыми классификаторами.

Двоичные классификаторы — это классификаторы, которые пытаются классифицировать данные в один из двух классов. Популярные бинарные классификаторы включают:

- K-ближайшие соседи

- Логистическая регрессия

- Машины опорных векторов (SVM)

- Деревья решений/случайные леса

- Наивный Байес

Мультиклассовые классификаторы — это классификаторы, которые пытаются классифицировать данные по одному из трех или более классов. Целью более популярных классификаторов является либо построение бинарной модели для каждого возможного сравнения двух групп (один против одного), либо создание единого бинарного классификатора, в котором каждая группа сравнивается со всеми остальными вместе взятыми (один против одного). отдых; ОБЩ). Поскольку многоклассовые классификаторы по существу так или иначе используют бинарную классификацию, многие из тех же алгоритмов бинарной классификации также используются в многоклассовой классификации. Популярные многоклассовые классификаторы включают:

- K-ближайшие соседи

- СВМ

- Наивный Байес

- Усиленные модели (например, XGBoost)

- Деревья решений/случайные леса

Наконец, классификаторы с несколькими метками — это классификаторы, которые позволяют нам изучать одну или несколько меток для каждого набора данных, которые мы классифицируем. Другими словами, метки не являются взаимоисключающими, поэтому одному примеру может быть назначено несколько меток. Их иногда называют мягкими классификаторами, потому что вероятности для более чем одного класса могут использоваться для присвоения нескольких меток класса одному примеру. К популярным алгоритмам относятся:

- Случайный лес с несколькими метками

- Деревья решений с несколькими метками

- Многоуровневое повышение градиента

В качестве практики взгляните на вещи, которые бросают вам вызов в вашей собственной жизни. Например, я тратил много времени на оценку и заметил, что мои комментарии были очень похожими в работах, которые я оценивал. Я перевел это в проблему классификации, переформулировав проблему в классификацию каждого абзаца в статье с комментарием. Я рассматривал комментарии как разные классы, а абзацы каждой статьи — как данные. Я построил многоклассовый классификатор, чтобы присвоить комментарий каждому абзацу.

Хотите узнать о науке о данных, карьерном росте, жизни или неправильных бизнес-решениях? Подпишитесь на мою рассылку здесь и получите ссылку на мою бесплатную электронную книгу.