Будучи частью сообщества Kaggle уже год, я пытаюсь показать то, что предлагает kaggle для всех молодых специалистов по данным, таких как я. Большинство новичков верят парочке МООК, некоторым вопросам на собеседовании и таддаааааа !!!! Мы приземлимся в Data Science. Но, как уже было сказано, практическая реализация и теоретические знания - это далеко друг от друга. Итак, я расскажу, что можно и что нельзя делать для новичка.

Следует помнить, что Kaggle - это не просто платформа для размещения соревнований, а нечто большее.

  • Для начала выберите задачу: Титаник (классификация) или Цена дома (регрессия) как много ядер (скрипты / записные книжки ipython в R / python). будут доступны для них. Вместо того, чтобы сразу же приступить к решению этой проблемы, попробуйте изучить некоторые решения, которые кажутся вам подходящими по названию с приличной оценкой, например - Титаник с использованием Knn, титаник для начинающих - XGBoost, LGBM, и т.д. (может запутать вас вначале). Поймите, как подойти к проблеме Data Science, какие разные модели можно использовать для одного и того же.

Не пытайтесь подняться выше, копируя другие решения или используя уловку черного ящика, которую вы не знаете, поскольку она никогда не поможет . Даже на собеседовании спрашивают, какой подход используется для решения проблемы, а не ранг. Попытайтесь понять каждый ваш шаг, как причину, почему заполнять значения NaN? почему раздача должна быть Нормальной? почему следует избегать перекоса? рассуждение - ключ к успеху.

  • Если возникнет какой-либо вопрос, Обсуждения Kaggle может стать отличным местом для получения замечательных решений, о которых вы, возможно, и не ожидали, если будете гуглить !! вы также можете получить медаль за то, что разместили вопрос или ответили на него (у меня их 23!)
  • Kaggle Learning можно рассматривать как обобщенную версию книги по науке о данных, но с реализациями. Попробуйте. Он охватывает Python, анализ, машинное обучение, базовые нейронные сети и многие другие темы.
  • Помимо соревнований, вы можете взять любой набор данных Kaggle (Kaggle имеет огромный пул наборов данных, или вы также можете загрузить), сделать что угодно (но достойно) и показать вам аналитические полномочия. Kaggle также предоставляет денежные призы (2000 долларов США) за лучшие ядра! Сверху вишня.
  • Изучите разные жанры, например текстовые данные, временные ряды, регрессию, классификацию, множественную классификацию, чтобы узнать о трудностях с каждым типом данных и не ограничиваться только схожими типами проблем.
  • Потратьте около 15–20 дней на одну задачу, опробовав все возможные допустимые модели, которые вы можете придумать, и сравните свой прогноз для этих моделей. Иногда следование правилам не дает точных прогнозов.
  • Ядра Kaggle - это очень мощный бесплатный графический процессор с уже установленным большинством необходимых библиотек, это может быть лучшим местом для науки о данных.
  • Подпишитесь на kagglers, которые, по вашему мнению, предлагают наиболее подходящие решения, лучшие ответы в обсуждениях и т. д., вы будете получать уведомления, когда они будут выполнять какие-либо действия.
  • Создавайте команды с другими болтунами и принимайте вызов: чем больше умов, тем больше идей.
  • Упомяните в своем резюме о своей деятельности. Это всегда плюс.

Kaggle может сыграть полезную роль в вашем исследовании Data Science. Предоставляемые ресурсы просто не имеют себе равных. Тем не менее, большинство соискателей стараются делать что-то быстро и в конечном итоге не получают никаких возможностей. Найдите время, не спешите изучать все, но попробуйте учиться эффективно.

Если Data Science - это марафон, то Kaggle - тренер !!

Посмотрите и другие мои статьи !!

Важные аналитические шаги для проектов в области науки о данных

Лучшие бесплатные онлайн-ресурсы по науке о данных (доступны ссылки в формате pdf)

Временные ряды для начинающих

Лабиринт с Q Learning (коды доступны)