Проект команды Matplotlib
Цель проекта состояла в том, чтобы построить лучший алгоритм для прогнозирования цен на перепроданные автомобили с использованием нескольких параметров. Пользователь должен иметь возможность легко прогнозировать цены на подержанные автомобили.
Исходный код:
https://github.com/sanyogthescholar/used_car_price_prediction
Развертывание:
http://sanyog.pythonanywhere.com/
Введение
Этот проект направлен на создание точной системы прогнозирования цен на автомобили с использованием наборов данных от различных производителей автомобилей.
Цели
Цель проекта состояла в том, чтобы построить лучший алгоритм для прогнозирования цен на подержанные автомобили. Этот алгоритм поможет повысить точность прогнозов, сделанных покупателям автомобилей.
Набор данных, использованный для анализа:
Мы объединили 6 наборов данных
https://www.kaggle.com/mysarahmadbhat/linear-regression-in-depth/data
Изучение набора данных
Нам нужен был набор данных, содержащий цены на подержанные автомобили с несколькими параметрами. Для этого мы объединили 6 наборов данных от разных брендов.
Бренды, на которых обучалась наша модель:
- Ауди
- BMW
- Форд
- Хендай
- Мерседес
- Тойота
Шаги в ЭДА:
- Проверил набор данных, проверив количество строк, столбцов, и выполнил статистическую сводку набора данных.
- Очистка набора данных. Проверено на отсутствующие значения и ничего не найдено.
- Выполнена визуализация набора данных с использованием гистограмм, круговых диаграмм, линейных диаграмм и точечных диаграмм, а также гистограмм.
Информация из набора данных
Вот некоторые выводы, которые мы получили из наших наборов данных.
Визуализация выше показывает распределение цен на автомобили.
Визуализация выше показывает:
- Существует сильное отрицательное значение корреляции -0,75 между годом выпуска автомобиля и пробегом автомобиля.
- Существует положительная корреляция 0,52 между годом выпуска автомобиля и ценой автомобиля.
- Существует положительное значение корреляции 0,61 между ценой автомобиля и объемом двигателя.
- Существует сильное отрицательное значение корреляции -0,88 между бензином и дизельным топливом.
- Существует слабая корреляция между типами трансмиссии автомобиля (автоматическая, полуавтоматическая, механическая и т. д.) и ценой автомобиля.
Визуализация выше показывает, что автомобили, произведенные в последние годы, стоят дороже, чем автомобили, выпущенные в предыдущие годы, за исключением старинных автомобилей.
На приведенной выше визуализации показаны средние цены на автомобили по годам.
После объединения всех 6 наборов данных мы закодировали все категориальные переменные (такие как марка, тип топлива, трансмиссия и т. д.) одним горячим кодированием, чтобы они были преобразованы в числовую форму, которую можно напрямую использовать в качестве входных данных для нашей модели машинного обучения.
Мы экспериментировали с GridSearchCV и несколькими моделями машинного обучения, такими как линейная регрессия, лассо-регрессия, дерево решений и т. д.
Поэкспериментировав, мы остановились на Random Forest Regressor, так как он дал нам самую высокую точность. После этого мы начали работать над процессом развертывания. Для развертывания мы создали веб-приложение, которое очень удобно и просто в использовании.
На стороне интерфейса мы использовали Bulma (фреймворк CSS), HTML и CSS.
На бэкенде в качестве веб-фреймворка используется Flask. Модель ML сохраняется в файле рассола, который загружается только один раз во время выполнения. Когда пользователь отправляет информацию о своем автомобиле, ему нужно просто нажать отправить.
Модель получает входные данные из формы, прогнозирует значение и отправляет его во внешний интерфейс.
Заключение
В результате исследовательского анализа мы обнаружили одно интересное открытие: цены на автомобили неуклонно снижались с 1970-х до середины 1990-х годов, когда они колебались в течение нескольких лет и снова начали неуклонно расти.