Давайте посмотрим на некоторые различия между этими двумя дисциплинами.

Наука о данных и машинное обучение — две замечательные и увлекательные дисциплины, которые составляют большую часть нашей жизни. Иногда люди путают их, но это совершенно разные вещи.

Что такое наука о данных

Data Science — это, как следует из названия, наука о данных. Это набор методов и инструментов, которые позволяют исследователю данных извлекать информацию из данных. Такой процесс интеллектуального анализа можно осуществить с помощью статистических инструментов или математических моделей. Большую часть времени специалист по данным использует методы визуализации данных. Визуализация чего-либо — хороший способ понять это, а когда мы что-то понимаем, мы собираем информацию. В этом и заключается цель науки о данных: извлекать информацию.

Хороший специалист по данным должен владеть математикой, статистикой, программированием и анализом данных, уделяя особое внимание визуализации. Информация может быть извлечена без использования сложных алгоритмов. Напротив, простота всегда является хорошим выбором, когда дело доходит до объяснения явлений, исходя из данных, которые они производят.

Наука о данных не применяет модели машинного обучения вслепую в поисках максимально возможной точности, она не игнорирует исследовательский анализ данных, потому что это скучно, а босс жаждет результатов. На самом деле, вы можете создавать отличные результаты в области науки о данных, не обучая чему-либо. Например, хорошая корреляционная матрица может оказаться очень полезным продуктом для нетехнического менеджера. Это помогает людям понять, насколько взаимосвязаны наши функции, и эта бизнес-информация стоит времени, потраченного на ее извлечение. Модель не нужна. Я рассказываю об исследовательском анализе данных в своем бесплатном онлайн-курсе, потому что считаю, что это полный и полезный процесс обработки данных, который может дать нам очень ценные результаты.

Все это дает большую ценность для бизнеса даже без моделей. По моему опыту, я дал несколько результатов чистой науки о данных, не предоставив ни одной модели, и результат всегда был удивительным для моих клиентов. Итак, наука о данных не всегда связана с машинным обучением и сама по себе может давать хорошие результаты.

Что такое машинное обучение

Машинное обучение — это искусство научить машины выполнять задачи, для которых они явно не созданы. Это часть науки о данных, и мы называем ее процессом построения модели. Это верно как для контролируемых, так и для неконтролируемых моделей.

Машинное обучение можно проводить без науки о данных, используя, например, инструмент AutoML, но я этого не предлагаю. Ни один алгоритм не может извлечь информацию, которую можно использовать для обучения модели без контроля человека. Давайте помнить, что алгоритм питается данными для того, чтобы сделать математическое представление информации (то есть модели), поэтому выполнение машинного обучения без надлежащих предварительных шагов по науке о данных может привести к неправильным результатам, медленным процедурам обучения и, что хуже всего, к отсутствию представление о действительно важных особенностях нашего набора данных.

Мое личное мнение: да, вы можете выполнять машинное обучение без науки о данных, но если вы это сделаете, вы потерпите неудачу. Вместо этого науку о данных и машинное обучение можно выполнять вместе, постоянно помня, что мы строим модель не для прогнозирования, а для понимания информации, лежащей в основе данных. Следуя этому подходу, мы выбираем простые модели, которые легко интерпретировать, мы применяем правильный выбор функций и глубокий анализ важности функций, мы удаляем избыточные функции и оставляем только соответствующие атрибуты нашего набора данных. Таким образом, машинное обучение становится важным для понимания бизнеса, а не только технической помощью для прогнозирования мошенничества или оттока клиентов.

Выводы

На мой взгляд, наука о данных может легко существовать без машинного обучения, а машинное обучение может существовать без науки о данных. Однако, только совместно выполняя науку о данных и машинное обучение, мы можем достичь самых высоких результатов. Машинное обучение может быть очень полезным и прибыльным способом использования знаний о данных, предоставляемых наукой о данных, а наука о данных может привести машинное обучение к все более и более совершенным моделям. Никогда не забывайте об этом в следующий раз, когда будете работать над проектом по науке о данных.

Джанлука Малато – специалист по данным, который преподает машинное обучение и науку о данных на веб-сайте www.yourdatateacher.com. Вы можете связаться с ним для получения информации и онлайн-уроков здесь.

Первоначально опубликовано на https://www.yourdatateacher.com 27 сентября 2021 г.