В этой статье я обсудил и выполнил 5 наиболее важных шагов Data Science для набора данных Vehicle от Kaggle.

Привет, народ! В настоящее время я работаю над своим выпускным проектом, который в основном основан на науке о данных и прогнозном анализе. Итак, я обнаружил, что лучший способ узнать об этом — это сделать мини-проект в этой области, который даст лучшее представление о более широкой картине будущего, а также поможет некоторым зрителям получить некоторые знания из этого.

Анализ данных определяется как процесс очистки, преобразования и моделирования данных для получения полезной информации для принятия бизнес-решений. В этом блоге я попытался провести анализ данных в наборе данных о транспортных средствах, который я взял с веб-сайта Kaggle (https://www.kaggle.com/nehalbirla/vehicle-dataset-from-cardekho).

Первый вопрос, с которым может столкнуться любой парень еще до начала анализа данных, — какой язык мне выбрать для его выполнения? , ну, есть десятки доступных вариантов, таких как Python, Matlab, язык R и т. д., которые очень популярны для науки о данных. Выбор конкретной платформы полностью зависит от ваших потребностей и комфорта и должен выбирать соответственно. Здесь я предпочел язык Python и буду использовать его в блокноте Jupyter. (Чтобы установить блокнот Jupyter, перейдите по этой ссылке: (install_JupyterNotebook)

Приступая к проекту, процесс, который будет обсуждаться, упоминается ниже:

  1. Сбор данных
  2. Очистка данных
  3. Исследовательский анализ данных
  4. Построение модели
  5. Развертывание модели

Импорт библиотек

Импорт данных:

Понимание данных:

Имена столбцов:

Форма кадра данных:

Ненулевые значения счетчика:

Визуализация данных с использованием библиотеки D-tale:

Проверка отсутствующих значений:

Использование библиотеки D-tale для просмотра анализа столбцов:

Точно так же можно выполнить анализ столбца для каждого столбца, чтобы увидеть различные параметры и проанализировать их соответствующим образом.

Парные графики с использованием Dtale: эта функция строит несколько попарных двумерных распределений в наборе данных .

Тепловая карта. Тепловые карты используются для наблюдения за корреляциями между переменными функций.

Использование библиотеки Sweetviz: эта библиотека позволяет нам выполнять EDA всего за несколько строк кодов и экономит много времени.

Ассоциации:

■ Здесь Квадраты представляют собой категориальные ассоциации (коэффициент неопределенности и коэффициент корреляции) от 0 до 1. Коэффициент неопределенности асимметричен (т. е. значения ROW LABEL показывают, насколько они ПРЕДОСТАВЛЯЮТ ИНФОРМАЦИЮ для каждая ЭТИКЕТКА вверху).

Круги — это симметричные числовые корреляции (Пирсона) от -1 до 1. тривиальная диагональ намеренно оставлена ​​пустой для ясности.

ПОСТРОЕНИЕ МОДЕЛИ:

Создание модели состоит из важных шагов, упомянутых ниже:

  1. Разделить родительский набор данных на обучающий и тестовый наборы.
  2. Выберите алгоритм.
  3. Подходящая модель.
  4. Проверьте модель.

#Здесь мы строим прогностическую модель машинного обучения для прогнозирования цены транспортного средства с использованием других функций в наборе данных.

Разделите родительский набор данных на обучающий и тестовый наборы:

Для разделения выборки на тренировочный набор используется функция train_test_split в sklearn. После этого данные разделения будут использоваться для обучения и тестирования модели.

Визуализация данных тестирования и обучения

Выберите алгоритм:

Создание модели с использованием алгоритма линейной регрессии sklearn

Подходит для модели

Теперь возьмите обучающий набор и используйте его для подбора модели (т. е. для обучения модели):

Проверка модели:

Следующим шагом является оценка того, насколько хорошо модель предсказывает цену, используя данные для обучения, путем «вливания» обучающего набора X в модель линейной регрессии:

Модель показала точность 70,68 %. Точность этой модели можно дополнительно повысить с помощью различных методов и манипуляций с фреймами данных.

Эпилог:

В этой статье мы узнали о некоторых общих шагах, связанных с процессом анализа данных, и завершили его, создав модель машинного обучения для прогнозирования цены. Мы также видели несколько типов диаграмм и графиков и информацию, которую передает каждый из них. На мой взгляд, Python — один из самых простых в освоении языков, а его библиотеки, такие как pandas, seaborn, dtale, sci-kit, значительно ускоряют анализ данных. Это просто не то, я призываю вас поиграть с данными и придумать различные виды визуализации и посмотреть, какие идеи вы можете извлечь из них.