Как новичку подойти к Kaggle?

Будучи частью сообщества Kaggle уже год, я пытаюсь показать то, что предлагает kaggle для всех молодых специалистов по данным, таких как я. Большинство новичков верят парочке МООК, некоторым вопросам на собеседовании и таддаааааа !!!! Мы приземлимся в Data Science. Но, как уже было сказано, практическая реализация и теоретические знания - это далеко друг от друга. Итак, я расскажу, что можно и что нельзя делать для новичка.

Следует помнить, что Kaggle - это не просто платформа для размещения соревнований, а нечто большее.

Для начала выберите задачу: Титаник (классификация) или Цена дома (регрессия) как много ядер (скрипты / записные книжки ipython в R / python). будут доступны для них. Вместо того, чтобы сразу же приступить к решению этой проблемы, попробуйте изучить некоторые решения, которые кажутся вам подходящими по названию с приличной оценкой, например - Титаник с использованием Knn, титаник для начинающих - XGBoost, LGBM, и т.д. (может запутать вас вначале). Поймите, как подойти к проблеме Data Science, какие разные модели можно использовать для одного и того же.

Не пытайтесь подняться выше, копируя другие решения или используя уловку черного ящика, которую вы не знаете, поскольку она никогда не поможет . Даже на собеседовании спрашивают, какой подход используется для решения проблемы, а не ранг. Попытайтесь понять каждый ваш шаг, как причину, почему заполнять значения NaN? почему раздача должна быть Нормальной? почему следует избегать перекоса? рассуждение - ключ к успеху.

Если возникнет какой-либо вопрос, Обсуждения Kaggle может стать отличным местом для получения замечательных решений, о которых вы, возможно, и не ожидали, если будете гуглить !! вы также можете получить медаль за то, что разместили вопрос или ответили на него (у меня их 23!)
Kaggle Learning можно рассматривать как обобщенную версию книги по науке о данных, но с реализациями. Попробуйте. Он охватывает Python, анализ, машинное обучение, базовые нейронные сети и многие другие темы.
Помимо соревнований, вы можете взять любой набор данных Kaggle (Kaggle имеет огромный пул наборов данных, или вы также можете загрузить), сделать что угодно (но достойно) и показать вам аналитические полномочия. Kaggle также предоставляет денежные призы (2000 долларов США) за лучшие ядра! Сверху вишня.
Изучите разные жанры, например текстовые данные, временные ряды, регрессию, классификацию, множественную классификацию, чтобы узнать о трудностях с каждым типом данных и не ограничиваться только схожими типами проблем.
Потратьте около 15–20 дней на одну задачу, опробовав все возможные допустимые модели, которые вы можете придумать, и сравните свой прогноз для этих моделей. Иногда следование правилам не дает точных прогнозов.
Ядра Kaggle - это очень мощный бесплатный графический процессор с уже установленным большинством необходимых библиотек, это может быть лучшим местом для науки о данных.
Подпишитесь на kagglers, которые, по вашему мнению, предлагают наиболее подходящие решения, лучшие ответы в обсуждениях и т. д., вы будете получать уведомления, когда они будут выполнять какие-либо действия.
Создавайте команды с другими болтунами и принимайте вызов: чем больше умов, тем больше идей.
Упомяните в своем резюме о своей деятельности. Это всегда плюс.

Kaggle может сыграть полезную роль в вашем исследовании Data Science. Предоставляемые ресурсы просто не имеют себе равных. Тем не менее, большинство соискателей стараются делать что-то быстро и в конечном итоге не получают никаких возможностей. Найдите время, не спешите изучать все, но попробуйте учиться эффективно.

Если Data Science - это марафон, то Kaggle - тренер !!

Посмотрите и другие мои статьи !!

Важные аналитические шаги для проектов в области науки о данных

Лучшие бесплатные онлайн-ресурсы по науке о данных (доступны ссылки в формате pdf)

Временные ряды для начинающих

Лабиринт с Q Learning (коды доступны)

Как новичку подойти к Kaggle?

Если Data Science - это марафон, то Kaggle - тренер !!

Вопросы по теме