Задачи Data Science в порядке сложности

  1. Фундаментальные знания
    - Базовая математика (Линейная алгебра, Исчисление, Вероятность и статистика)
    - Языки программирования: Python;
    - Средства управления базами данных: SQL;
    - Интерактивные инструменты визуализации: Power Bi и Tableau;
    - MS-Excel
  2. Обработка и визуализация данных
     — Библиотеки Python для обработки данных: Numpy, Pandas
     — Библиотеки Python для визуализации данных: Matplotlib, Seaborn
     — Другие библиотеки: Plotly, ggplot2(R-programming), Dash.
  3. Некоторые этапы проекта исследовательского анализа данных
    - Методы исследовательского анализа данных
    - Очистка данных
    - Обработка отсутствующих данных
    - Масштабирование и нормализация данных
    - Обнаружение и обработка выбросов.
  4. Машинное обучение
     – Контролируемое обучение
     – Неконтролируемое обучение
     – Обучение с подкреплением
     – Оценка и проверка модели
  5. Глубокое обучение
    — нейронная сеть
    — сверточные нейронные сети (CNN)
    — рекуррентные нейронные сети (RNN)
    — долговременная кратковременная память (LSTM) и Gated Recurrent Units (GRU) )
    - Генеративно-состязательные сети (GAN)
  6. Некоторые дополнительные темы
    – Обработка естественного языка (NLP): обработка текста, встраивание слов (Word2Vec, Glove), рекуррентные нейронные сети для NLP
    – Анализ временных рядов (декомпозиция временных рядов, авторегрессионное интегрированное скользящее среднее ( ARIMA), Seasonal ARIMA, Методы экспоненциального сглаживания, Prophet)
    - Байесовская статистика и вероятностное программирование (Bayesian Inference, Markov Chain MMonte Carlo (MCMC))
  7. Технологии больших данных
    - Hadoop
    - MapReduce
    - HDFS
    - Spark (RDD, DataFrames, Mlip)
    - Базы данных NoSQL (MongoDB, Cassandra, HBase, Couchbase)
    — Платформы потоковой обработки (Apache Kafka, AApache Flink, Apache Storm)

(Кредит: Валид Муса)