В этой статье я обсудил и выполнил 5 наиболее важных шагов Data Science для набора данных Vehicle от Kaggle.
Привет, народ! В настоящее время я работаю над своим выпускным проектом, который в основном основан на науке о данных и прогнозном анализе. Итак, я обнаружил, что лучший способ узнать об этом — это сделать мини-проект в этой области, который даст лучшее представление о более широкой картине будущего, а также поможет некоторым зрителям получить некоторые знания из этого.
Анализ данных определяется как процесс очистки, преобразования и моделирования данных для получения полезной информации для принятия бизнес-решений. В этом блоге я попытался провести анализ данных в наборе данных о транспортных средствах, который я взял с веб-сайта Kaggle (https://www.kaggle.com/nehalbirla/vehicle-dataset-from-cardekho).
Первый вопрос, с которым может столкнуться любой парень еще до начала анализа данных, — какой язык мне выбрать для его выполнения? , ну, есть десятки доступных вариантов, таких как Python, Matlab, язык R и т. д., которые очень популярны для науки о данных. Выбор конкретной платформы полностью зависит от ваших потребностей и комфорта и должен выбирать соответственно. Здесь я предпочел язык Python и буду использовать его в блокноте Jupyter. (Чтобы установить блокнот Jupyter, перейдите по этой ссылке: (install_JupyterNotebook)
Приступая к проекту, процесс, который будет обсуждаться, упоминается ниже:
- Сбор данных
- Очистка данных
- Исследовательский анализ данных
- Построение модели
- Развертывание модели
Импорт библиотек
Импорт данных:
Понимание данных:
Имена столбцов:
Форма кадра данных:
Ненулевые значения счетчика:
Визуализация данных с использованием библиотеки D-tale:
Проверка отсутствующих значений:
Использование библиотеки D-tale для просмотра анализа столбцов:
Точно так же можно выполнить анализ столбца для каждого столбца, чтобы увидеть различные параметры и проанализировать их соответствующим образом.
Парные графики с использованием Dtale: эта функция строит несколько попарных двумерных распределений в наборе данных .
Тепловая карта. Тепловые карты используются для наблюдения за корреляциями между переменными функций.
Использование библиотеки Sweetviz: эта библиотека позволяет нам выполнять EDA всего за несколько строк кодов и экономит много времени.
Ассоциации:
■ Здесь Квадраты представляют собой категориальные ассоциации (коэффициент неопределенности и коэффициент корреляции) от 0 до 1. Коэффициент неопределенности асимметричен (т. е. значения ROW LABEL показывают, насколько они ПРЕДОСТАВЛЯЮТ ИНФОРМАЦИЮ для каждая ЭТИКЕТКА вверху).
• Круги — это симметричные числовые корреляции (Пирсона) от -1 до 1. тривиальная диагональ намеренно оставлена пустой для ясности.
ПОСТРОЕНИЕ МОДЕЛИ:
Создание модели состоит из важных шагов, упомянутых ниже:
- Разделить родительский набор данных на обучающий и тестовый наборы.
- Выберите алгоритм.
- Подходящая модель.
- Проверьте модель.
#Здесь мы строим прогностическую модель машинного обучения для прогнозирования цены транспортного средства с использованием других функций в наборе данных.
Разделите родительский набор данных на обучающий и тестовый наборы:
Для разделения выборки на тренировочный набор используется функция train_test_split в sklearn. После этого данные разделения будут использоваться для обучения и тестирования модели.
Визуализация данных тестирования и обучения
Выберите алгоритм:
Создание модели с использованием алгоритма линейной регрессии sklearn
Подходит для модели
Теперь возьмите обучающий набор и используйте его для подбора модели (т. е. для обучения модели):
Проверка модели:
Следующим шагом является оценка того, насколько хорошо модель предсказывает цену, используя данные для обучения, путем «вливания» обучающего набора X в модель линейной регрессии:
Модель показала точность 70,68 %. Точность этой модели можно дополнительно повысить с помощью различных методов и манипуляций с фреймами данных.
Эпилог:
В этой статье мы узнали о некоторых общих шагах, связанных с процессом анализа данных, и завершили его, создав модель машинного обучения для прогнозирования цены. Мы также видели несколько типов диаграмм и графиков и информацию, которую передает каждый из них. На мой взгляд, Python — один из самых простых в освоении языков, а его библиотеки, такие как pandas, seaborn, dtale, sci-kit, значительно ускоряют анализ данных. Это просто не то, я призываю вас поиграть с данными и придумать различные виды визуализации и посмотреть, какие идеи вы можете извлечь из них.