Управление проектами по науке о данных с использованием CRISP-DM

CRISP-DM — это платформа, разработанная в 1996 году для управления проектами по работе с большими данными. Она может помочь нам в структурировании и управлении проектом по работе с большими данными с точки зрения процесса, а также в управлении общим потоком и различными этапами в процессе. интеллектуальный анализ данных или проект по науке о данных.

CRISP-DM расшифровывается как Межотраслевой стандартный процесс интеллектуального анализа данных или просто (CRISP-DM).

Различные этапы CRISP-DM следующие:

Бизнес-понимание: этот этап в основном означает, что мы пытаемся решить и какова потребность пользователя или проблема, которую мы пытаемся решить, а затем в зависимости от типа проблемы, которую мы пытаемся решить. , то мы можем увидеть, какое решение мы можем использовать для решения проблемы. Это может быть определение того, нужно ли нам измерять количество неявок в больницу, или это может быть прогноз цен на дома, или у нас может быть цель или предсказание, какие клиенты будут покупать наш продукт или нет. Как только мы определили проблему, которую хотим решить с помощью машинного обучения, мы можем создать план проекта для решения этой проблемы. Здесь следует упомянуть, что не все проблемы нужно будет решать с помощью машинного обучения, поэтому нам нужно внимательно посмотреть, что спросит бизнес в этой ситуации, и нам нужно учесть все предположения, цели, а также ограничения. а также, что эта бизнес-проблема приходит с тем, чтобы мы могли найти для нее технологическое решение.
Понимание данных. На этом этапе нам нужно увидеть, какие данные у нас есть. Нам нужно увидеть, откуда поступают данные, и если они из разных систем данных, то нам нужно убедиться, что конвейеры данных на месте, а также процессы ETL и как все эти данные будут объединены и перемещены. в один центральный ресурс, чтобы его могло использовать наше решение для машинного обучения. Нам также нужно будет посмотреть свойства данных и просмотреть их метаданные. Есть много статистических свойств, которые мы можем проверить, которые могут включать в себя сводную статистику, например, есть ли значения, которые являются пустыми или нулевыми, и как нам нужно управлять ими, а также какие-либо выбросы и как нам нужно управлять ими. . Мы также можем увидеть, как все переменные коррелируют друг с другом, чтобы посмотреть на их значимость для других переменных и увидеть, существует ли сильная связь между некоторыми переменными. Здесь мы также можем взглянуть на исследовательский анализ данных и посмотреть, как выглядят гистограммы, линейные диаграммы или точечные диаграммы, чтобы посмотреть на структуру и тенденции данных.
Подготовка данных. На этом этапе мы выберем данные и выполним выбор функций, функцию, извлечение и проектирование функций, если это необходимо для нашего случая. В этом случае нам нужно увидеть, сколько строк и столбцов нам нужно для наших данных. Нам нужно убедиться, что данные точны, и если есть пропущенные значения, как мы будем управлять ими, мы можем удалить эти значения, мы можем заменить их медианой или средним значением или использовать некоторые продвинутые методы регрессии для замены таких пропущенных значений. Нам может понадобиться создать фиктивные переменные, где у нас есть некоторые категориальные переменные, и нам нужно изменить их на числовые, например, для функций Пол (М/Ж) или Женат/Не замужем, которые нам, возможно, потребуется изменить на числовые. Мы также можем объединить несколько функций в одну или использовать некоторые передовые статистические методы, такие как PCA (анализ основных компонентов), чтобы уменьшить размерность набора данных. Вообще говоря, если 5% данных отсутствуют, мы должны попытаться заменить их, однако, если отсутствует более 5% данных, мы должны либо рассмотреть возможность не использовать этот столбец, однако фактическое решение будет зависеть от уровня риска, который мы хотим принять в нашей модели и важности функции модели, а также.
Моделирование данных. В этом случае мы выбираем и создаем модель, а также точно настраиваем модель и выбираем значения для различных параметров модели, которые мы можем использовать для оптимизации модели и настройки ее различных параметров регуляризации и оптимизации. Когда мы выбираем модель, т. е. линейную регрессию, логистическую регрессию или деревья решений и т. д. Затем мы выбираем тип инструментов, которые мы хотим использовать, т. е. R, тензорный поток или Python и т. д. Затем мы разделим данные на поезд, тест и действительный набор данных. Вообще говоря, мы можем использовать 70% для обучения, 10% для действительных данных и 20% для тестовой части данных, однако фактические значения будут зависеть от типа данных, их количества и типа проблемы машинного обучения. мы имеем дело с. Если у нас меньше данных, мы можем использовать K-кратную перекрестную проверку для обучения модели. После того, как мы установили эти значения для разделения теста обучения, мы обучим модель на обучающем наборе, а затем предскажем ее, используя действительный и тестовый набор данных. У нас есть много способов оценить модель, которые мы обсудим далее, например, RMSE и т. д.

5. Оценка: в этом случае мы оцениваем модель и видим, была ли наша бизнес-цель успешной или нет. Мы также увидим, насколько эффективна модель, основанная на точности R в квадрате, p-значениях, статистике F, значениях AIC или BIC, RMSE, кривых ROC и т. д. В зависимости от технических результатов, которые мы получили на основе типа проблемы, которую мы пытались решить. Если нас устраивают результаты, то мы можем развернуть модель в продакшене, а если нас не устраивает какой-либо из вышеперечисленных результатов, которые мы получили, то мы можем либо отказаться от модели и начать новую, либо мы можем сделать некоторые внесите изменения в модель и повторите попытку.

6. Развертывание. На этом заключительном этапе мы развертываем модель после того, как нас удовлетворит оценка модели. В этом случае нам нужно развернуть модель дома или в каком-либо другом виртуальном сервисе, таком как SAS, GCP, AWS или Azure и т. д. Поскольку модели довольно быстро устаревают, в зависимости от количества и качества новых данных, поступающих в систему, нам может потребоваться надлежащий мониторинг того же самого, поскольку, когда качество модели начинает падать, нам может потребоваться принять некоторые меры. действия по устранению проблемы, это может быть производительность или качество нашей модели. Затем мы создадим окончательный отчет, чтобы показать заинтересованным сторонам и показать им все подробности об общей производительности и точности модели.

Использованная литература:

https://www.ibm.com/support/knowledgecenter/en/SS3RA7_15.0.0/com.ibm.spss.crispdm.help/crisp_overview.htm

Межотраслевой стандартный процесс интеллектуального анализа данных
Межотраслевой стандартный процесс интеллектуального анализа данных, известный как CRISP-DM, представляет собой открытую стандартную модель процесса, которая описывает…ru.wikipedia.org

Управление проектами по науке о данных с использованием CRISP-DM

Вопросы по теме