Задачи Data Science в порядке сложности
- Фундаментальные знания
- Базовая математика (Линейная алгебра, Исчисление, Вероятность и статистика)
- Языки программирования: Python;
- Средства управления базами данных: SQL;
- Интерактивные инструменты визуализации: Power Bi и Tableau;
- MS-Excel - Обработка и визуализация данных
— Библиотеки Python для обработки данных: Numpy, Pandas
— Библиотеки Python для визуализации данных: Matplotlib, Seaborn
— Другие библиотеки: Plotly, ggplot2(R-programming), Dash. - Некоторые этапы проекта исследовательского анализа данных
- Методы исследовательского анализа данных
- Очистка данных
- Обработка отсутствующих данных
- Масштабирование и нормализация данных
- Обнаружение и обработка выбросов. - Машинное обучение
– Контролируемое обучение
– Неконтролируемое обучение
– Обучение с подкреплением
– Оценка и проверка модели - Глубокое обучение
— нейронная сеть
— сверточные нейронные сети (CNN)
— рекуррентные нейронные сети (RNN)
— долговременная кратковременная память (LSTM) и Gated Recurrent Units (GRU) )
- Генеративно-состязательные сети (GAN) - Некоторые дополнительные темы
– Обработка естественного языка (NLP): обработка текста, встраивание слов (Word2Vec, Glove), рекуррентные нейронные сети для NLP
– Анализ временных рядов (декомпозиция временных рядов, авторегрессионное интегрированное скользящее среднее ( ARIMA), Seasonal ARIMA, Методы экспоненциального сглаживания, Prophet)
- Байесовская статистика и вероятностное программирование (Bayesian Inference, Markov Chain MMonte Carlo (MCMC)) - Технологии больших данных
- Hadoop
- MapReduce
- HDFS
- Spark (RDD, DataFrames, Mlip)
- Базы данных NoSQL (MongoDB, Cassandra, HBase, Couchbase)
— Платформы потоковой обработки (Apache Kafka, AApache Flink, Apache Storm)
(Кредит: Валид Муса)