Начните с простого! Избегайте попадания в ловушки хайпа.

Многие люди спрашивали меня, как начать свою карьеру в области машинного обучения. Машинное обучение — это очень широкая область, охватывающая программирование, статистику, математические и деловые навыки вместе взятые. Легко заблудиться с таким количеством тем для изучения и изучения.

Кроме того, выпускные программы по машинному обучению являются новыми, многие специалисты по данным и инженеры по машинному обучению пришли из разных областей и в значительной степени являются самоучками. Возьмем, к примеру, меня, я получил диплом промышленного инженера, который дал мне прочную базу статистики, а также бизнес-навыки, но не программирование, которое мне пришлось изучать самому. Я также работаю с коллегами из разных областей, таких как информатика, электротехника и многое другое. Это разнообразие здорово, оно позволяет нам иметь разные решения и идеи, и мы все можем расти вместе, делясь знаниями!

Но со всеми полученными знаниями и со всей шумихой вокруг этого я видел тех же людей, которые хотели начать с машинного обучения, пытаясь начать сразу с изучения нейронных сетей, CNN, GAN, трансформаторов и многих других, и поэтому они потерпеть неудачу или, по крайней мере, с трудом пытаться научиться этому, не имея прочной основы. Что ж… все в порядке, если вы хотите изучить сложные алгоритмы, но это определенно не то, с чего вам следует начинать.

Наука о данных не так привлекательна, как вас уверяют многие статьи. Это тяжело и большую часть времени вы не будете использовать сложные алгоритмы, о которых все говорят, вы будете обращаться к простым и базовым, которые работают.

Вот текущий сценарий:

  • Большинство компаний все еще выясняют, что делать с машинным обучением, что добавит ценности, и когда у них будет модель, как развернуть ее в производстве; MLOps изучается и все еще очень нов.
  • Если вы не работаете в крупной технологической компании, наборы данных, которые вы, вероятно, будете использовать, представляют собой табличные данные.
  • Данные беспорядочны, и вам нужно понять, как их очистить и сделать полезными и проницательными, статистика является основой для этого.
  • Если вы разбираетесь в разработке функций и знаете, как очищать данные, вы можете добиться отличных результатов с помощью простых алгоритмов, которые ускорят и упростят развертывание, а также уменьшат задержку.

Поэтому моя рекомендация: придерживайтесь основ! Если вы хотите эту карьеру, не пытайтесь пропустить шаги, которые необходимы для основ знаний о машинном обучении.

Начните с обучения:

  • Статистика, как преобразовать данные и почему.
  • Лучшие практики написания кода, как сделать чистый код (использовать строки документации, линтинг, со всеми принципами SOLID — модульность и повторное использование).
  • Рекомендации по моделированию, как не допустить утечки данных, как проектировать, использовать функции потерь, метрики оценки, которые можно использовать для проверки вашей модели, и зачем их использовать.
  • Узнайте о простых алгоритмах, их сильных и слабых сторонах, как их использовать и как их настраивать. Тюнинг — ключ к отличным результатам!
  • Не стоит недооценивать коммуникативные навыки, они понадобятся вам для согласования проекта с заинтересованными сторонами. То, как вы сообщаете результаты модели, является ключом к утверждению ее для производства.

Только когда простое не работает, вы должны пойти на более сложные варианты. Помните: ваша цель как специалиста по обработке и анализу данных — оптимизировать процесс или продукт и повысить ценность бизнеса, а не использовать определенный алгоритм.

Кроме того, не ждите, пока вы получите все необходимые знания, чтобы применить их на практике. Как я уже говорил в начале, машинное обучение — это очень широкая область, и она быстро развивается, у вас никогда не будет всех ответов и всех знаний, важно, чтобы вы продолжали учиться и применять. Пока вы практикуетесь, вы также можете создать свое собственное портфолио на Github, опубликовать его и попросить оставить отзыв, это ускорит ваш прогресс в обучении. Есть много причин сделать это:

  • Документирование отлично подходит для фиксации контента, записи вашей логики, того, что вы сделали и почему вы сделали это именно так; попробуйте подумать, если кто-то увидит это, поймет ли этот человек?
  • Документирование дает вам возможность проверить это позже и увидеть, какого прогресса вы достигли, а также обновить проект новыми знаниями!
  • Вы также можете поделиться своим портфолио при поиске работы.

Наконец, есть много достойных внимания создателей контента машинного обучения, которые могут помочь вам в этом путешествии, например Кэсси Козырков, Эндрю Нг и многие другие. У них также обычно есть курсы или канал на Youtube, вы должны их проверить! Если вам нравятся практические и структурированные курсы, я бы порекомендовал DataCamp.

Старые книги о моде также могут быть отличным подспорьем для обучения, если вам нужны более технические книги, книги O'Reilly в основном великолепны и содержат хорошую дидактику, но, пожалуйста, не переходите сразу к Deep Learning, начните с «Практической статистики для специалиста по данным». , Свободный Python и базовые. Для не технических книг есть отличные, которые могут помочь вам с критическим мышлением, например, «Как лгать со статистикой».

Кроме того, если вы чувствуете себя комфортно, вы должны взаимодействовать с сообществами, такими как Kaggle, Github, сообществом MLOps и региональными, давайте расти и учиться вместе!

Спасибо за прочтение! Я надеюсь, что смог помочь вам в вашем пути машинного обучения. Если вам понравилось, подписывайтесь на меня, чтобы получать больше статей и советов о машинном обучении.