Эта статья посвящена моему путешествию и подготовке к переходу от типичной роли бизнес-аналитика в стартапе электронной коммерции до роли Data Scientist начального уровня в консалтинговой компании путем самостоятельного изучения. Я не буду вдаваться в подробности моей нынешней роли, поскольку это выходит за рамки данной статьи. В основном я хочу затронуть темы для изучения, ресурсы, на которых можно учиться, и то, как вы можете использовать эту статью в качестве руководства. Мы будем использовать закон Парето, а это значит, что мы сосредоточимся только на темах, которые, скорее всего, будут заданы на собеседовании.
Принцип Парето гласит, что для многих исходов примерно 80% последствий происходят от 20% причин.
Итак, приступим.
Инструменты для изучения: -
- Python / R: - Хотя вы можете выбрать любой из двух, я пробовал оба, и, поскольку кто-то не занимается программированием, Python намного легче освоить. Кроме того, преимущество Python дает множество библиотек машинного обучения. Этот плейлист для Python выведет вас на достойный уровень для любого собеседования.
- SQL: - У вас всегда будут собеседования на должность Data Science, на которых компании просят знания SQL. Этот вводный код вам очень поможет
«Добро пожаловать на курс! | SQL
Вот пример курса "Добро пожаловать на курс !:. campus.datacamp.com"
Темы статистики для обсуждения: -
- Население и выборка
- "Нормальное распределение"
- Меры центральной тенденции
- Дисперсия и стандартное отклонение
- Ковариация и корреляция
- Значение P
- Вероятность и правдоподобие
- Теорема Байеса
- Смещение и отклонение
Алгоритмы машинного обучения: -
- Линейная регрессия: - Прочтите об обыкновенных методах наименьших квадратов, Градиентный спуск
- Логистическая регрессия: - Прочтите Оценка максимального правдоподобия
- К-означает кластеризацию
- Деревья решений: - Прочитать про adaboost, gradient boost
- Случайный лес: - Прочтите о регрессии и классификации с использованием RF
- XGBoost: - Прочтите о регрессии и классификации с использованием XGBoost
- Прогнозирование временных рядов: - В настоящее время многие компании нанимают специалистов по данным, обладающих навыками прогнозирования. Мое интервью было в основном вокруг этого. Подготовьте такие темы, как Авторегрессия, Скользящие средние, ACF, PACF, ARIMA, SARIMA. Хотя прогнозирование временных рядов само по себе является огромной областью изучения, эти основные темы помогут вам ответить на большинство вопросов в интервью.
Дополнительные ресурсы и статьи: -
- StatQuest с Джошем Стармером
- Криш Наик
- 3blue1brown
- Линейная регрессия вручную и в Excel
- Вывод градиентного спуска · Крис МакКормик
- Функция затрат - логистическая регрессия
- Логистическая регрессия к MLE на градиентный спуск
- Модели и оценка
- Шпаргалка по Python Timeseries
- Модель ARIMA - Полное руководство по прогнозированию временных рядов в Python | ML
Как приступить к подготовке: -
Запланируйте 2 отдельных занятия в день, одно для начала с Python / R, а второе для изучения тем статистики по порядку. Когда у вас будет достаточно хороший опыт в базовой статистике, начните с тем, посвященных машинному обучению, одну за другой. Изучите тему и попробуйте решить проблему на Kaggle. Допустим, вы изучали логистическую регрессию, попробовали решить эту проблему Kaggle. Разместите код на github, который также поможет улучшить ваш профиль.
Сводка: -
Темы, о которых я упомянул, достаточно хороши, чтобы дать вам работу начального уровня в области науки о данных, что является нашей целью. Цель этой статьи - дать вам конкретные темы, на которых вы можете сосредоточиться, чтобы вас не перегружали всеми знаниями. и все курсы в Интернете. Все ресурсы и ссылки абсолютно бесплатны для использования. При подготовке соблюдайте хронологический порядок. Дайте мне знать в комментариях, если вы хотите, чтобы я подчеркнул что-то конкретное в следующей статье, а также, пожалуйста, не стесняйтесь обращаться ко мне в Linkedin, если у вас есть еще вопросы, я постараюсь ответить.