Публикации по теме 'data-preprocessing'


Предварительная обработка данных Python с использованием Pyspark
Apache Spark — это платформа, позволяющая быстро обрабатывать большие объемы данных. Предварительная обработка данных является необходимым шагом в машинном обучении, поскольку качество данных влияет на результат и производительность модели машинного обучения, которую мы применили к данным. Поэтому чрезвычайно важно, чтобы мы предварительно обработали наши данные, прежде чем вводить их в нашу модель. Задача предварительной обработки данных также выполняется пандами и Pyspark. Здесь мы..

Категориальное кодирование — Что, почему и когда?
Подготовка данных | Одна горячая кодировка | Кодирование данных Категорное кодирование в машинном обучении Понимание того, почему машинам требуется категориальное кодирование данных Если вы читаете это, я предполагаю, что вы уже знаете, что такое кодирование. Тем не менее, я дам краткое введение для тех, кто плохо знаком с наукой о данных. Примечание. В этой статье термины; функции, столбцы и переменные используются взаимозаменяемо. Данные классифицируются следующим образом:..