Анализ и создание классификатора машинного обучения для прогнозирования удовлетворенности пассажиров на основе данных одной авиакомпании США.

Введение

Авиакомпания — это бизнес, который предлагает услуги по воздушной перевозке пассажиров и грузов. Путешествие по воздуху является распространенным и эффективным способом перемещения из одного места в другое. Авиакомпании соблюдают ряд правил, чтобы авиаперелеты были безопасными и комфортными для людей.

Чтобы авиакомпания была успешной, она должна уделять пристальное внимание некоторым факторам, таким как удобство сидений, услуги Wi-Fi, развлечения в полете, онлайн-поддержка и многое другое, чтобы поддерживать высокий уровень удовлетворенности клиентов.

Проанализировав одну из авиакомпаний США, мы попытаемся найти лучшие факторы, способствующие высоким рейтингам удовлетворенности клиентов. Мы также разработаем классификатор машинного обучения, чтобы прогнозировать удовлетворенность пассажиров.

  • Обратите внимание, что набор данных был взят из Kaggle.

Контур

Чтобы узнать лучшие факторы, которые способствуют высоким рейтингам удовлетворенности клиентов, мы ответим на следующие вопросы:

1. Каково общее количество довольных и недовольных пассажиров в наборе данных, который мы получили от Kaggle?

2. Каков уровень удовлетворенности в зависимости от пола, типа поездки, класса и типа клиента?

3. Существует ли тесная связь между любыми двумя факторами?

Мы также собираемся создать классификатор машинного обучения для прогнозирования удовлетворенности клиентов с помощью библиотеки Scikit-learn Python.

Обратите внимание, что мы заранее подготовили и очистили набор данных для этапов анализа и моделирования. Проверьте мой GitHub репозиторий для технической стороны.

Анализ данных

В этом разделе анализа мы собираемся ответить на наши три основных вопроса, чтобы найти факторы, которые приводят к удовлетворенности клиентов для авиакомпании.

1. Общее количество довольных и недовольных пассажиров

Набор данных авиакомпаний США содержит более 129 тыс. записей, и на графике выше показано, что довольных (~70 тыс.) пассажиров больше, чем неудовлетворенных (~58 тыс.).

2. Уровень удовлетворенности в зависимости от пола, типа поездки, класса и типа клиента.

Уровень удовлетворенности у разных людей разный, так что удовлетворение, вероятно, не будет одинаковым для обоих полов. Это также может зависеть от типа тарифа, который вы заплатили за класс.

На приведенных выше графиках мы можем извлечь интересные факты следующим образом:

1. Уровень удовлетворенности женщин не равен уровню мужчин. Удовлетворенных женщин больше, чем мужчин, а неудовлетворенных женщин гораздо меньше, чем неудовлетворенных мужчин.

2. Пассажиры деловых поездок имеют более высокий уровень удовлетворенности, чем личные поездки.

3. Бизнес-класс имеет самый высокий показатель удовлетворенности

4. Нелояльные клиенты более недовольны, чем лояльные клиенты.

3. Связь между факторами

Факторы могут иметь взаимосвязь между собой, что может повысить уровень удовлетворенности при правильном их сочетании.

Положительное число означает, что если фактор А растет, фактор В, скорее всего, также будет расти, тогда как отрицательное число означает обратное.

Следуя приведенной выше карте, мы видим, что существует только одна сильная связь между двумя факторами: «Задержка прибытия в минутах» и «Задержка отправления в минутах» с коэффициентом 0,96, что указывает на то, что как только происходит Задержка прибытия, Задержка отправления также, вероятно, увеличится.

Есть также много промежуточных показателей, таких как комфорт сиденья и еда и напитки с коэффициентом 0,72, что говорит нам о том, что большое количество пассажиров связывают комфорт сиденья с едой во время поездки.

Моделирование

В этом разделе моделирования мы создадим быструю модель машинного обучения, используя библиотеку Python Scikit-learn. Модель была основана на алгоритме логистической регрессии, который используется для задач классификации. Проще говоря, модель машинного обучения просматривает все обучающие данные и пытается изучить различные закономерности между всеми факторами, прежде чем мы используем ее для прогнозирования.

Мы создали эту выборку пассажиров и намеренно сделали первого пассажира положительным, а второго отрицательным, чтобы проверить нашу модель машинного обучения.

Мы видим, что первый пассажир дал 5 звезд большинству из этих факторов, в отличие от второго пассажира, который дал много низких голосов. В этот момент мы должны ожидать, что первый пассажир удовлетворен, а второй пассажир неудовлетворен.

Взглянув на последнюю колонку, мы можем обнаружить, что первый пассажир остался доволен поездкой, в отличие от второго пассажира, как мы и ожидали.

Обратите внимание, что это была первая модель без какой-либо настройки, а точность модели составила 83%, что является отличным результатом.

Заключение

В заключение можно сказать, что забота об удовлетворенности клиентов важна для бизнеса, и существует множество факторов, повышающих уровень удовлетворенности, таких как класс, удобство сидений или питание.

Это нормально, что бизнес-класс дороже, чем другие классы, из-за предлагаемых услуг, но также может быть больше внимания к другим классам для авиакомпании и пассажиров.

Большое спасибо, и надеюсь, вам было интересно читать мою статью!

Не забудьте проверить мой GitHub репозиторий на предмет технической стороны. 🤗