Как обрабатывать недостающие данные с помощью полного анализа случая (CCA)

Содержание:

∘ Полный анализ случая:
∘ Предположения CCA:
∘ Преимущества
∘ Недостатки
∘ Когда использовать
∘ « Выполнение:"

Вы знаете, что алгоритмы машинного обучения плохо справляются с недостающими данными. Сохраняйте недостающее значение в данных, если вы разрешаете модели обучаться на этих данных. Ваш алгоритм не сможет учиться на них.

Поскольку в Scikit-Learn большинство алгоритмов не способны обрабатывать недостающие данные, вы как специалист по обработке данных несете ответственность за обработку недостающих данных.

Если в ваших данных отсутствуют значения, у вас есть два варианта.

Полный анализ случая:

Полный анализ случаев, также называемый «удалением списка» случаев, состоит в отбрасывании необработанных значений, если значения в любом из столбцов отсутствуют.

CCA буквально означает анализ только тех наблюдений, для которых есть информация во всех переменных набора данных.

Предположения CCA:

Ваши данные полностью отсутствуют в случайном порядке.

например,

У вас есть набор данных, содержащий 1000 строк и четыре столбца, один из которых — «Возраст», и в нем 50 пропущенных значений.

Если вы сделаете CCA, то удалите его, и форма ваших данных будет (950, 4). Вы сделаете это, когда ваши 50 значений случайно пропадут.

Это также может случиться, что отсутствуют первые 50 значений, отсутствуют последние 50 значений или отсутствуют первые 25 значений и последние 25 значений.

В таких случаях вы не удалите данные, потому что это проблематично.

Вместо этого, когда вы применяете CCA, вы должны быть уверены, что данные, которые вы удалили, совершенно случайно отсутствуют».

Если вы удалите данные случайным образом, распределение данных останется неизменным.

Преимущество

Легко реализовать, поскольку никаких манипуляций с данными не требуется. Вам просто нужно вызвать функцию dropna из Pandas.
Сохраняет распределение переменных (если данные полностью отсутствуют случайно, то распределение переменной этих сокращенных данных должно соответствовать распределению в исходном наборе данных).

При применении CCA необходимо проверять распределение данных до и после удаления пропущенных значений.

Недостаток

Он может исключить большую часть исходного набора данных (если недостающих данных много).
исключенные наблюдения могут быть информативными для анализа (если данные не пропущены случайно)
При использовании наших моделей в производстве модель не будет знать, как обрабатывать недостающие данные.

Когда использовать

Данные должны полностью отсутствовать в случайном порядке.
Если в столбце отсутствует более 5% данных, то CCA нельзя применить. CCA используется, когда у вас менее 5% недостающих данных.

а в столбце 95% данных отсутствует. Вы можете удалить этот столбец.

Выполнение:

blog_notebooks/обработка отсутствующих данных-cca/обработка отсутствующих данных-cca.ipynb в главном ·…
Внесите свой вклад в разработку paresh122/blog_notebooks, создав учетную запись на GitHub. >github.com

Спасибо, что нашли время прочитать мой блог. Ваша поддержка и участие значат для меня многое. Я искренне ценю ваш интерес к моему проекту и надеюсь, что он дал вам ценную информацию. Ваши постоянные читатели и отзывы вдохновляют меня продолжать делиться знаниями и стремиться к совершенству. Спасибо за то, что вы были частью этого путешествия.

Свяжитесь со мной:
LinkedIn: https://www.linkedin.com/in/pareshpatil122/
GitHub: https://github.com/paresh122
Портфолио: https://pareshpatil-portfolio.netlify.app/
Topmate: https://topmate.io/paresh_patil122