Проект команды Matplotlib

Цель проекта состояла в том, чтобы построить лучший алгоритм для прогнозирования цен на перепроданные автомобили с использованием нескольких параметров. Пользователь должен иметь возможность легко прогнозировать цены на подержанные автомобили.

Исходный код:

https://github.com/sanyogthescholar/used_car_price_prediction

Развертывание:

http://sanyog.pythonanywhere.com/

Введение

Этот проект направлен на создание точной системы прогнозирования цен на автомобили с использованием наборов данных от различных производителей автомобилей.

Цели

Цель проекта состояла в том, чтобы построить лучший алгоритм для прогнозирования цен на подержанные автомобили. Этот алгоритм поможет повысить точность прогнозов, сделанных покупателям автомобилей.

Набор данных, использованный для анализа:

Мы объединили 6 наборов данных

https://www.kaggle.com/mysarahmadbhat/linear-regression-in-depth/data

Изучение набора данных

Нам нужен был набор данных, содержащий цены на подержанные автомобили с несколькими параметрами. Для этого мы объединили 6 наборов данных от разных брендов.

Бренды, на которых обучалась наша модель:

  • Ауди
  • BMW
  • Форд
  • Хендай
  • Мерседес
  • Тойота

Шаги в ЭДА:

  • Проверил набор данных, проверив количество строк, столбцов, и выполнил статистическую сводку набора данных.
  • Очистка набора данных. Проверено на отсутствующие значения и ничего не найдено.
  • Выполнена визуализация набора данных с использованием гистограмм, круговых диаграмм, линейных диаграмм и точечных диаграмм, а также гистограмм.

Информация из набора данных

Вот некоторые выводы, которые мы получили из наших наборов данных.

Визуализация выше показывает распределение цен на автомобили.

Визуализация выше показывает:

  • Существует сильное отрицательное значение корреляции -0,75 между годом выпуска автомобиля и пробегом автомобиля.
  • Существует положительная корреляция 0,52 между годом выпуска автомобиля и ценой автомобиля.
  • Существует положительное значение корреляции 0,61 между ценой автомобиля и объемом двигателя.
  • Существует сильное отрицательное значение корреляции -0,88 между бензином и дизельным топливом.
  • Существует слабая корреляция между типами трансмиссии автомобиля (автоматическая, полуавтоматическая, механическая и т. д.) и ценой автомобиля.

Визуализация выше показывает, что автомобили, произведенные в последние годы, стоят дороже, чем автомобили, выпущенные в предыдущие годы, за исключением старинных автомобилей.

На приведенной выше визуализации показаны средние цены на автомобили по годам.

После объединения всех 6 наборов данных мы закодировали все категориальные переменные (такие как марка, тип топлива, трансмиссия и т. д.) одним горячим кодированием, чтобы они были преобразованы в числовую форму, которую можно напрямую использовать в качестве входных данных для нашей модели машинного обучения.

Мы экспериментировали с GridSearchCV и несколькими моделями машинного обучения, такими как линейная регрессия, лассо-регрессия, дерево решений и т. д.

Поэкспериментировав, мы остановились на Random Forest Regressor, так как он дал нам самую высокую точность. После этого мы начали работать над процессом развертывания. Для развертывания мы создали веб-приложение, которое очень удобно и просто в использовании.

На стороне интерфейса мы использовали Bulma (фреймворк CSS), HTML и CSS.

На бэкенде в качестве веб-фреймворка используется Flask. Модель ML сохраняется в файле рассола, который загружается только один раз во время выполнения. Когда пользователь отправляет информацию о своем автомобиле, ему нужно просто нажать отправить.

Модель получает входные данные из формы, прогнозирует значение и отправляет его во внешний интерфейс.

Заключение

В результате исследовательского анализа мы обнаружили одно интересное открытие: цены на автомобили неуклонно снижались с 1970-х до середины 1990-х годов, когда они колебались в течение нескольких лет и снова начали неуклонно расти.