Определенная нами бизнес-проблема теперь должна быть преобразована в проблему науки о данных.

Если вы не читали предыдущую статью, прочтите ее, прежде чем заявлять об этом.



Д постановка задачи науки отвечает на два основных вопроса.

Во-первых, как решить бизнес-проблему с помощью науки о данных.

Во-вторых, как измерить успех, результативность и действенность решения для анализа данных, которое мы разработаем.

Обсуждения по формулировке научных проблем профинансируют большую часть блога, чтобы лучше оценить и понять концепции, лежащие в основе формулировки задач науки о данных.

Давайте сначала получим некоторое представление о жизненном цикле проекта, который разрабатывает решения для науки о данных.

Жизненный цикл проекта в области науки о данных основан на научных методах, за которыми следует команда специалистов по анализу данных для извлечения практических сведений из данных. Научный метод состоит из определения проблемы, получения данных и информации, относящихся к проблеме, и формирования гипотезы. чтобы объяснить проблему. Проверка достоверности гипотезы и обмен выводами со всеми заинтересованными сторонами. Эти глубокие научные методы обозначили шесть этапов CRISP DM, популярного проекта в области науки о данных Life Cycle.

Шесть этапов CRISP DM.

Понимание бизнеса, понимание данных, подготовка данных, моделирование, оценка и развертывание. Почти все темы, в которых обсуждается эта причина, попадут в фазу понимания бизнеса, где мы определяем проблему и планируем проект на этапе понимания данных, мы собираем и изучаем данные для оценки их качества.

На этапе подготовки данных мы решаем вопросы, связанные с качеством, и готовим их к использованию на следующем этапе. Немного подробнее о том, что происходит при понимании данных и подготовке к ним. Мы рассмотрим необработанные данные, которые являются нашими данными, полученными из источника. Эти данные будут в основном неструктурированными и будут содержать ошибки, несоответствия и пропущенные значения. Поэтому нам необходимо оценить, насколько актуальны, точны и согласованы необработанные данные. Возможно, нам придется агрегировать различные фрагменты данных из нескольких источников, чтобы получить полную картину и начать в некоторой последовательности, а также распределить их по категориям. Нам также необходимо преобразовать неструктурированные данные, такие как текст, изображения, аудио, видео и т. Д., В числовые уравнения. Например, числовым эквивалентом изображений в пикселях, числовым эквивалентом аудиофайлов являются значения амплитудной частоты и т. Д. Мы также должны суммировать данные, чтобы выделить несколько ключевых аспектов, и, вероятно, лучший способ суммировать данные предназначены для визуализации в виде графиков, таких как гистограммы, гистограммы, линии построения круговой диаграммы и т. д.

Все это происходит при понимании и подготовке данных. Используя очищенные и более понятные данные, мы вошли в фазу моделирования, которая является стержнем логики науки о данных.

При моделировании усилия по созданию моделей, модели, которые обнаруживают существующие закономерности и тенденции, модели, которые предсказывают будущие тенденции и результаты, модели - это те, которые предоставляют действенные идеи на основе предоставленных им данных. Итак, давайте разберемся с моделями немного больше, прежде чем двигаться дальше.

Когда мы говорим, что моделируем, мы имеем в виду, что пытаемся описать то, что имитирует поведение чего-то в реальном мире, модели могут представлять такие вещи, как здания, конструкции машин или даже живых существ, таких как растения, животные, люди. и т. д. или может представлять такие явления, как погода, землетрясения, торговля акциями, деловые ситуации.

Это могут быть карты, рабочие прототипы, чертежи, текстовые описания, электронные таблицы, математические уравнения или программное обеспечение. В контексте науки о данных модель - это программа. Модели создаются с использованием алгоритмов. Алгоритм - это последовательность математических или логических операций, которые необходимо выполнить с доступными данными.

Уже существует несколько таких алгоритмов, которые были созданы экспертами в данной области, они доступны в виде предварительно созданных программных модулей на этапе моделирования, которые использовали соответствующий алгоритм для решения проблемы, которую мы определили. Мы запускаем этот алгоритм, принимая на вход доступные нам данные. Когда вы это делаете, создается модель, которая, опять же, является программой. И чем больше или меньше, чем он принимает некоторые данные в качестве входных данных и производит выходные и форму шаблонов, тенденции - это прогнозы, основанные на входных данных.

Это в широком смысле то, что мы подразумеваем под моделированием.

С точки зрения непрофессионала, выбор правильного типа модели - ключ к эффективному решению Data Science.

Увидев, что такое моделирование сейчас, давайте вернемся к следующему этапу после моделирования - оценки. здесь мы тестируем созданные нами модели на основе определенных критериев и выбираем модели, которые можно использовать в реальных жизненных ситуациях. Существует несколько подходов к тестированию и несколько критериев оценки модели. Мы подробно рассмотрим несколько показателей для оценки различных типов моделей, поскольку подходящая модель является ключом к успеху проекта.

Наконец, у нас есть этап развертывания, на котором мы начинаем использовать выбранную модель для принятия бизнес-решений, потратим время и обсудим, как модели развертываются, а также критерии для развертывания и наблюдения за этим. Здесь следует отметить одну очень важную вещь: последовательность фаз не является жесткой. Между фазами нужно переходить туда и обратно. Весь процесс очень привлекателен по своей природе, в том смысле, что результаты, полученные на одной странице, возвращаются на предыдущие этапы. Но лучшая производительность задачи в этих функциях. Например, создание и моделирование. Создание модели и их оценка - это очень итеративный процесс, и весь процесс ориентирован на данные. сам по себе цикличен.

История не заканчивается после развертывания модели. Это продолжается, и это то, что указывает Внешний Круг.

Уроки, извлеченные в процессе разработки модели и из развернутой модели, могут вызвать новые идеи и вопросы, ориентированные на бизнес, и именно так история продолжается и повторяется.

Мы услышали краткий обзор всех этапов типичного проекта в области науки о данных, CRISP-DM. В деле понимания веры нам необходимо спланировать действия и результаты всех последующих этапов этого курса; мы будем обсуждать, что необходимо запланировать. Планирование начинается с определения бизнес-задачи, вы уже видели, как это делается. Теперь нам нужно сформулировать задачу науки о данных. Этот проект посвящен решению этой проблемы, чтобы предоставить практические идеи для решения бизнес-проблемы.

Бизнес-проблема, которую мы определили, теперь должна быть преобразована в техническую проблему в вашем проекте по анализу данных. Сценарий. Формулируя задачу науки о данных в основной задаче, сначала мы сопоставляем бизнес-проблему с проблемой науки о данных. Во-вторых, мы устанавливаем цели для проекта по науке о данных, а затем указываем некоторые критерии для измерения того, были ли эти цели достигнуты. Сопоставление бизнес-проблемы с проблемой науки о данных в основном означает определение того, какой тип модели лучше всего подходит для решения бизнес-проблемы. И большинство бизнес-задач можно сопоставить с одним из этих типов задач науки о данных: классификация, регрессия, кластеризация, ассоциация обнаружения аномалий и рекомендации. И каждую из этих проблем можно решить, разработав соответствующую ей модель.

Как правило, проект по науке о данных преследует три цели: разработка модели, позволяющей получить практическую информацию для решения бизнес-проблемы. Разработка или приобретение инфраструктуры конвейера потока данных для получения хранилища и обработки данных для разработки и развертывания современных. И создание документации для описания деталей, касающихся конвейера потока данных модели, а также результатов проекта. И их критерии успеха, связанные с каждой из этих целей, чтобы измерить, насколько успешен проект.

Модели, разработанные в рамках проекта, должны давать полезные, действенные идеи с минимальными затратами. Конвейер потока данных, созданный проектом, должен быть эффективным и действенным, а документация, созданная в ходе проекта, должна быть адекватной, обеспечивать достаточную ясность, чтобы быть полезной для предполагаемых пользователей.

Классификация типов задач науки о данных

Как упоминалось ранее, сопоставление бизнес-проблемы с данными, так как проблема сводится к определению правильной модели, которая должна быть построена для решения бизнес-проблемы. Давайте быстро резюмируем, что мы подразумеваем под моделью. Модели и данные в контексте - это программы, которые моделируют реальный мир с помощью математических уравнений и встроенных в него алгоритмов.

Он принимает некоторые данные в качестве входных и производит выходные в виде шаблонов, тенденций или прогнозов на основе этих входных данных. Позвольте мне упомянуть некоторые часто формулируемые типы задач науки о данных, которые мы будем обсуждать в этом блоге. Классификационная регрессия, кластеризация, ассоциация обнаружения аномалий и рекомендации.

Начнем с проблемы классификации. Надеюсь, вы ознакомились с документом, предоставленным в качестве дополнительного ресурса в блоге, по обрамлению бизнес-проблемы в разделе определения бизнес-проблем.



Возьмем первый пример из документа. Это описывает проблему потери доходов банка из-за плохих ссуд, списаний. Плохие ссуды - это ссуды, которые не возвращаются заемщиком. Кредитные специалисты, отвечающие за утверждение или отклонение кредитных заявок, вручную обработали около 10000 кредитных заявок. Около 20 процентов одобренных кредитов оказались безнадежными. Это влияет на маржу прибыли, поскольку почти 30 процентов общей выручки списывается как безнадежные ссуды. Итак, бизнес-цель - снизить потери из-за плохих кредитов, списаний. И эта бизнес-цель по сокращению убытков из-за списания безнадежных кредитов может быть достигнута, если кредитные специалисты, отвечающие за утверждение или отклонение кредитной заявки, смогут более эффективно оценивать риск невыполнения обязательств.

Теперь давайте посмотрим, как может помочь формулировка этой бизнес-задачи в задаче классификации. У банка есть много данных, которые они могут получить из ранее утвержденных кредитных заявок, такие как демографические данные заявителя, годовой доход, сумма их годовых расходов по ссуде, период, на который ссуда была взята. В нем также есть данные о том, какие из этих кредитов были погашены или не были погашены. Проблема науки о данных сводится к тому, чтобы сначала разработать модель, которая учится на этих данных. И когда в модель вводится новая заявка на получение ссуды, она должна предсказать, будет ли ссуда возвращена или нет. Это актуальная информация, на основе которой кредитные специалисты могут решить, одобрять ли заявку на получение кредита или нет.

Я просто привожу вам пример постановки задачи классификации. Теперь позвольте мне дать вам общее описание проблемы классификации. Итак, давайте рассмотрим типичный прошлый отчет о кредитной заявке. Он состоит из переменных. Переменные бывают двух типов: одна из них называется зависимой переменной и также известна как ответ или цель. В этом примере retaid - это зависимая переменная. Ценность банка заключается в том, что он известен по прошлым заявкам на ссуду, но вы не знаете его ценность для новой заявки. Таким образом, модель, которую вы разрабатываете, должна предсказать, будет ли погашен кредит «да» или «нет». Итак, зависимая переменная - это переменная, которую вы хотите, чтобы модель предсказывала здесь значение зависимой переменной. Да или нет - это этикетка.

Теперь, другие переменные, такие как демографические данные заявителя, годовой доход, годовые расходы, сумма ссуды, срок ссуды и так далее, эти переменные, вероятно, будут влиять на значения зависимой переменной погашения ссуды. Такие переменные называются независимыми переменными. Они также известны как функции или атрибуты. Значения зависимых переменных для новых наборов данных не известны, поэтому проблема классификации заключается в прогнозировании значения зависимых переменных для новой точки данных на основе известных нам значений независимых переменных. Здесь следует отметить одну очень важную вещь: значения независимых переменных имеют категориальный характер. То есть мы прогнозируем категорию. Кому принадлежит точка точки данных, как погашенная или нет, а не числовому значению, например, какова была сумма погашения?

Кроме того, мы заранее определяем эти категории, и прогнозы должны принадлежать только к одной из этих категорий. И эти прогнозы основаны на вероятностях появления каждой из этих категорий, рассчитанных моделью. Заранее устанавливается определенное пороговое значение вероятности вероятности, и прогнозы относятся к одной из этих категорий. В зависимости от того, находится ли вероятность в пределах порогового значения или нет.