Одна только разработка функций может создать или разрушить ваши модели машинного обучения. Есть известная поговорка: «Если у вас есть слабые признаки из данных с сильным алгоритмом и сильные признаки из данных со средней рабочей моделью, средняя модель будет более оптимальной, чем другая».

Он состоит из 4 основных категорий: 1. Преобразование признаков 2. Создание признаков 3. Выбор признаков 4. Извлечение признаков

Функция трансформации сама по себе раздваивается на a. Масштабирование функций b. Отсутствующее значение Импутация c. Обработка категориальных значений d. Обнаружение выбросов. Масштабирование функций — это метод стандартизации числового диапазона. Всякий раз, когда мы имеем дело с данными, в которых наши входные столбцы различаются по своей величине, мы можем ожидать, что это повлияет на нашу модель, поэтому для управления этим мы можем использовать масштабирование функций с помощью стандартизации или нормализации.

В зависимости от типа данных, с которыми вы имеете дело, используемый вами масштабатор различается, например. : Для обработки выбросов используется надежное масштабирование. При работе с категориальными данными: используются номинальные или порядковые масштабы. Эти скейлеры помогают нам играть с определенным диапазоном чисел, что приводит к созданию оптимальных моделей.

Исключения:

Алгоритмы деревьев решений не будут затронуты масштабированием ваших значений, поскольку конечным результатом этих типов моделей является ответ на вопрос, например. п›10? Здесь масштабирование ваших значений не повлияет на оценку точности вашей модели.

Важность:

В то время как масштабирование необходимо учитывать при работе с такими моделями, как KNN (K ближайших соседей), PCA (анализ основных компонентов), в которых рассматривается евклидово расстояние между двумя точками.

Об этом следует продолжение.