Что такое машинное обучение, наука о данных или искусственный интеллект? это один из самых частых вопросов, с которыми я сталкивался от людей. Будь то новички, рекрутеры или даже люди, занимающие руководящие должности, это вопрос, который по-своему озадачивает каждого.

Для новичков это принимает форму: как мне стать специалистом по данным? Для руководителей возникает вопрос, имеет ли это важное влияние на бизнес? а для людей, работающих в этой области, это принимает форму того, что я должен называть себя: специалистом по данным, инженером данных или аналитиком данных.

Этот пост - попытка развенчать некоторые мифы и развить базовое понимание того, что такое Data Science, и ее различных интерпретаций в корпоративном мире.

Миф 1. Ученый / инженер / аналитик - это одно и то же.

Это искаженный миф, с которым я сталкивался много раз в своей карьере и который в основном наносит вред как сотрудникам, так и компании. Это все равно, что называть инженера-программиста и QA одно и то же.

Для сравнения, специалист по данным - это человек, имеющий опыт и знания как минимум в 2 из этих трех областей: статистика, программирование и машинное обучение. Основное ожидание от такого сотрудника - это способность работать над сложной бизнес-проблемой, где он / она может использовать свои знания для поиска решений. Такой человек хотел бы потратить большую часть своей работы на построение прогнозных моделей и выполнение статистических экспериментов для получения рабочего решения. Это смесь исследований и программирования, а характер и рабочая нагрузка различаются в зависимости от размера компании / команды.

Инженерия данных - это работа, в которой человек сосредотачивается на создании инфраструктуры для развертывания приложений, выполняющих такие задачи, как прогнозное моделирование, обновление информационных панелей с потоковыми данными, выполнение ежедневных заданий для создания отчетов и поддержание непрерывного потока данных. Действительно хорошее знание SQL быстро становится необходимостью для хорошего инженера по данным, а затем и знания Spark.

Аналитик данных - это человек, который больше склоняется к интерпретации и анализу бизнес-результатов, нежели находится в процессе их создания. Такой человек предпочтет использовать инструменты для получения этих результатов и потратит большую часть своего времени на интерпретацию и извлечение из них ценности для бизнеса. Аналитики данных работали в отрасли задолго до того, как появились специалисты по данным, и основным инструментом, который они выбрали, был Excel. Фактически, даже сегодня для небольшого количества данных лучше всего использовать Excel. В настоящее время существуют такие инструменты, как PowerBI, Azure, которые предоставляют возможность выполнять аналитику больших данных. Тем не менее, основной упор для этой позиции - точная передача повседневных результатов, а также результатов новой гипотезы, которую они проверяют. Эти исходные данные имеют решающее значение и составляют основу для принятия важных решений для бизнеса.

Миф 2. Глубокое обучение - это машинное обучение или искусственный интеллект

В настоящее время глубокое обучение, без сомнения, стало громким именем, и со всей шумихой и маркетингом вокруг него также привело к тому, что люди поверили, что глубокое обучение является окончательным решением каждой проблемы науки о данных / машинного обучения. Истина не может быть дальше этого.

Глубокое обучение, без сомнения, является одной из самых сложных концепций для понимания в современной сфере машинного обучения, но это все. Глубокое обучение получило свое название, потому что «нейронная сеть», подразумеваемая в этой структуре, содержит несколько уровней и, следовательно, называется «глубокой» сетью. То, что предлагается с помощью tensorflow, pytorch или keras, - это просто структура, позволяющая легко применить эту концепцию.

Несомненно, изучить фреймворк сложно, и фреймворк также эффективен, но это не эквивалентно приобретению опыта в области машинного обучения. Машинное обучение - это обширная область, которая использует концепции и алгоритмы из ряда областей, таких как статистика, теория информации, оптимизация, поиск информации, нейронные сети и т. Д., И имеет множество алгоритмов, каждый из которых более полезен, чем другие, в конкретном использовании. случаи.

Например, глубокое обучение оказалось чрезвычайно эффективным в компьютерном зрении и распознавании речи, но использовать его для анализа настроений или простой задачи прогнозирования, которую можно решить с помощью линейной регрессии, является абсолютным излишеством.

Всегда разумно потратить время на исследовательский анализ и понимание масштабов проблемы, прежде чем выбирать алгоритм, который будет использоваться для решения проблемы.

Этот рисунок лучше всего это объясняет.

Миф 3. Науку о данных можно освоить через 3 месяца.

Как бы я ни хотел, чтобы это было правдой, это не так. Чтобы быть эффективным специалистом по данным, нужно знать гораздо больше, чем просто импортировать библиотеки с помощью scikit-learn и tensorflow и вызывать их функции обучения и прогнозирования.

Это одна из тех иллюзорных областей, где результаты недетерминированы, что означает, что одна и та же последовательность шагов не всегда заканчивается одним и тем же результатом. Это сильно зависит от качества и количества предоставленных данных, и есть много вещей, которые должны произойти перед вызовом функции «поезд».

Конечно, вы можете узнать, как вызывать библиотеки и писать последовательность шагов для создания модели, но эта модель не всегда будет эффективной. Чтобы правильно понимать вещи, нужно иметь хорошее представление о работе и зависимостях применяемого алгоритма. Крайне важно обладать этими знаниями, иначе настройка моделей или объяснение результатов руководству станет настоящей болью.

Я всегда помню ответ на вопрос, как научиться программировать за одну ночь.

Это небольшая попытка подчеркнуть и развенчать распространенные мифы в области машинного обучения и науки о данных. Надеюсь, это поможет.