Способы обработки отсутствующих данных в категориальных столбцах и их реализации

Содержание:

∘ Наиболее частое вменение значений
∘ Вменение отсутствующей категории
∘ Случайное вменение
∘ Отсутствующий показатель:

С возвращением, дорогие читатели! Если вы прочитали наш предыдущий блог об управлении недостающими числовыми данными (ссылка здесь), вы уже на пути к мастерству работы с данными. Теперь давайте расширим эти знания. В этом выпуске мы разгадаем тайны обработки недостающих категориальных данных. Независимо от того, являетесь ли вы вернувшимся энтузиастом или новым исследователем, будьте готовы расширить свой набор инструментов для работы с данными, поскольку мы углубляемся в умные решения для этих неуловимых категориальных пробелов.

Точно так же, как числовые данные. Категориальные данные также могут иметь пропущенные значения. Есть два метода обработки этого.

Заменить наиболее частым
Создать новую категорию как отсутствующую.

Наиболее частое вменение значения:

В числовых данных у вас были полностью отсутствующие данные как случайные или на 5% меньше отсутствующих значений. Поэтому рекомендуется заменить значения средним или медианным значением.

В категориальных данных нет среднего значения или медианы, поэтому вы заменяете их модой, т. е. наиболее частым значением.

Предположения:

MCAR (отсутствует совершенно случайно)
Режим должен появляться в данных чаще остальных.

Хорошая сторона этого метода в том, что его легко реализовать, и вы также можете воспроизвести его в производственной среде.

Недостатком этого метода является то, что он меняет распределение ваших данных.

Выполнение:

blog_notebooks/Обработка отсутствующих категориальных данных/frequent-value-imputation.ipynb в основном ·…
Внесите свой вклад в разработку paresh122/blog_notebooks, создав учетную запись на GitHub. >github.com

Отсутствует вменение категории:

Если у вас есть столбец с названием «Город», содержащий такие значения, как Мумбаи, Дели или Пуна, и отсутствующее значение превышает 10%.

В этом случае вы не можете заменить значение по режиму. Вы не получите хороших результатов. Вместо того, чтобы создать новую категорию как «отсутствует», вы замените «NA» на «отсутствует». Теперь у вас есть четыре категории в ваших данных.

Выполнение:

blog_notebooks/Обработка отсутствующих категорий данных/missing-category-imputation.ipynb в основном ·…
Внесите свой вклад в разработку paresh122/blog_notebooks, создав учетную запись на GitHub. >github.com

Случайное вменение:

Случайное вменение — очень простая концепция, но она используется довольно часто.

Предположим, в вашем наборе данных есть столбец «XYZ», в котором отсутствуют значения. Вы заполняете это недостающее значение случайными числами. У вас может возникнуть вопрос, например: «Какой смысл использовать случайные числа?»

Это не обычные случайные числа. Вы выбираете случайное число случайным образом среди других чисел, присутствующих в вашем столбце.

Преимущество этой концепции в том, что ее можно применять как к «числовым», так и к «категориальным» данным.

Самым большим преимуществом этой техники является то, что она очень проста. хотя вы не можете реализовать эту технику с помощью Sklearn.

Еще одним преимуществом является то, что распределение данных или дисперсия остаются прежними. Этот метод используется, когда вы используете линейные алгоритмы, такие как линейная регрессия или логистическая регрессия, для ваших данных.

Ковариация между другими переменными беспокоит вас, когда вы применяете этот метод, потому что вы внесли случайность в свои данные.

Недостатком этого метода является то, что он требует большого количества памяти для развертывания, поскольку нам необходимо сохранить исходный обучающий набор для извлечения значений и замены «NA» в следующем наблюдении.

Выполнение:

blog_notebooks/Missing Indicator/random-sample-imputation.ipynb at main · paresh122/blog_notebooks
Внесите свой вклад в разработку paresh122/blog_notebooks, создав учетную запись на GitHub. github.com

Отсутствует индикатор:

В этом методе вы создаете новый столбец для каждого столбца, в котором отсутствуют данные. В нем вы сохраняете только два значения: «ИСТИНА» ИЛИ «Ложь».

Вы сохраняете значение «истина», когда в соответствующей строке отсутствуют значения, и сохраняете значение «ложь», когда соответствующие строки имеют значения.

Это кажется странным. Но это важный метод. При этом ваша модель машинного обучения учится различать пропущенные и непропущенные строки.

Когда модель учится каким-то образом различать, ее производительность улучшается. Этот метод не всегда работает.

Но это один из методов, который вам следует попробовать. Если ваш показатель R2 и точность не растут.

Выполнение:

blog_notebooks/Missing Indicator/missing-indicator.ipynb at main · paresh122/blog_notebooks
Внесите свой вклад в разработку paresh122/blog_notebooks, создав учетную запись на GitHub.github. ком

Спасибо, что нашли время прочитать мой блог. Ваша поддержка и участие значат для меня многое. Я искренне ценю ваш интерес к моему проекту и надеюсь, что он дал вам ценную информацию. Ваши постоянные читатели и отзывы вдохновляют меня продолжать делиться знаниями и стремиться к совершенству. Спасибо за то, что вы были частью этого путешествия.

Свяжитесь со мной:
LinkedIn: https://www.linkedin.com/in/pareshpatil122/
GitHub: https://github.com/paresh122
Портфолио: https://pareshpatil-portfolio.netlify.app/
Topmate: https://topmate.io/paresh_patil122

Способы обработки отсутствующих данных в категориальных столбцах и их реализации

Наиболее частое вменение значения:

Предположения:

Выполнение:

Отсутствует вменение категории:

Выполнение:

Случайное вменение:

Выполнение:

Отсутствует индикатор:

Выполнение:

Вопросы по теме