Топ-5 обязательных навыков Data Science на 2020 год

«R, Python, SQL и машинное обучение» долгое время было стандартным описанием работы специалиста по данным. Но с развитием отрасли этого уже недостаточно, чтобы оставаться конкурентоспособными на рынке труда.

Наука о данных - это конкурентная область, и люди быстро приобретают все больше и больше навыков и опыта. Это привело к стремительному росту должностных обязанностей инженера по машинному обучению, и поэтому я советую на 2020 год: все специалисты по данным также должны быть разработчиками.

Чтобы оставаться конкурентоспособным, обязательно подготовьтесь к новым способам работы, которые приходят с новыми инструментами.

Чтобы оставаться конкурентоспособным, обязательно подготовьтесь к новым способам работы и инструментам, которые прилагаются.

1. Agile

Agile - это метод организации работы, который уже широко используется командами разработчиков. Роли в области науки о данных все больше и больше заполняются людьми, изначальный набор навыков которых - чистая разработка программного обеспечения, и это приводит к роли инженера по машинному обучению.

Все больше и больше специалистов по обработке данных / инженеров по машинному обучению управляют как разработчики: они постоянно совершенствуют элементы машинного обучения в существующей кодовой базе.

Для этого типа роли специалисты по данным должны знать метод Agile, основанный на методе Scrum. Он определяет несколько ролей для разных людей, и это определение ролей обеспечивает непрерывное улучшение и плавное внедрение.

2. Github

Git и Github - это программное обеспечение для разработчиков, которое очень помогает при управлении разными версиями программного обеспечения. Они отслеживают все изменения, вносимые в базу кода, и, кроме того, значительно упрощают совместную работу, когда несколько разработчиков одновременно вносят изменения в один и тот же проект.

Поскольку роль Data Scientist становится все более сложной для разработчиков, становится ключевым моментом в использовании этих инструментов разработки. Git становится серьезным требованием для работы, и нужно время, чтобы привыкнуть к лучшим практикам использования Git. Легко начать работать над Git, когда вы один или когда вы новичок, но когда вы присоединяетесь к команде с экспертами Git, и вы все еще новичок, вы можете столкнуться с большими трудностями, чем вы думаете.

3. Индустриализация

Что также меняется в Data Science, так это то, как мы думаем о наших проектах. Специалист по анализу данных по-прежнему остается тем человеком, который, как всегда, отвечает на вопросы бизнеса с помощью машинного обучения. Но проекты Data Science все чаще разрабатываются для производственных систем, например, как микросервис в более крупном программном обеспечении.

В то же время продвинутые типы моделей становятся все более и более интенсивными для ЦП и ОЗУ, особенно при работе с нейронными сетями и глубоким обучением.

Что касается должностных инструкций специалиста по данным, становится все более важным не только думать о точности вашей модели, но и учитывать время выполнения или другие аспекты индустриализации вашего проекта.

4. Облако и большие данные

Хотя индустриализация машинного обучения становится все более серьезным препятствием для специалистов по данным, она также стала серьезным препятствием для инженеров по обработке данных и ИТ в целом.

Если специалист по данным может работать над сокращением времени, необходимого для модели, ИТ-специалисты могут внести свой вклад, перейдя на более быстрые вычислительные услуги, которые обычно предоставляются одним или обоими из следующих способов:

Облако: перемещение вычислительных ресурсов к внешним поставщикам, таким как AWS, Microsoft Azure или Google Cloud, позволяет очень легко настроить очень быструю среду машинного обучения, к которой можно получить доступ на расстоянии. Это требует от специалистов по данным иметь базовое представление о функционировании облака, например: работа с удаленными серверами вместо вашего собственного компьютера или работа на Linux, а не на Windows / Mac.

Большие данные: вторым аспектом более быстрой ИТ является использование Hadoop и Spark, которые представляют собой инструменты, позволяющие распараллеливать задачи на многих компьютерах одновременно (рабочие узлы). Это требует использования другого подхода к реализации моделей в качестве специалиста по данным, потому что ваш код должен допускать параллельное выполнение.

5. НЛП, нейронные сети и глубокое обучение.

В последнее время для специалистов по анализу данных все еще было принято считать, что НЛП и распознавание изображений являются простыми специализациями науки о данных, с которыми не все должны овладевать.

Но случаи использования классификации изображений и НЛП становятся все более частыми даже в «обычном» бизнесе. В настоящее время стало неприемлемым не иметь хотя бы базовых знаний о таких моделях.

Даже если у вас нет прямого применения таких моделей в вашей работе, практический проект легко найти и он позволит вам понять шаги, необходимые для проектов изображений и текста.

Я желаю вам удачи в улучшении ваших навыков и не сомневайтесь, следите за новостями!