В этой статье мы обсудим некоторые методы выбора функций, которые вы можете использовать для выбора функций, которые будут переданы в выбранную вами модель машинного обучения.

Автор: Дакш Бхатнагар

ВВЕДЕНИЕ

В сообществе специалистов по данным обычно говорят, что ваши прогнозы так же хороши, как и ваши данные, что означает, что если ваши данные были предварительно обработаны правильно и продуманно, в 9 случаях из 10 вы скорее всего, вы получите желаемые результаты. Вот некоторые из способов предварительной обработки ваших данных:

  1. Приведение всех функций к одному масштабу
  2. Преобразование категориальных столбцов в числовые столбцы
  3. Выбор первых n столбцов (на основе некоторых критериев) для обучения модели
  4. Удаление выбросов из данных

Мы сосредоточимся на третьем аспекте, который заключается в выборе количества столбцов или функций на основе некоторой логики, и эти функции помогут нашей модели делать более точные прогнозы. Это называется проектированием признаков.

Разработка признаков — это процесс использования знаний предметной области для извлечения признаков (характеристик, свойств, атрибутов) из необработанных данных. Цель состоит в том, чтобы использовать эти дополнительные функции для повышения качества результатов процесса машинного обучения по сравнению с предоставлением в процесс машинного обучения только необработанных данных.

Разработка признаков отличается от извлечения признаков в том смысле, что проектирование признаков – это процесс ручного подбора столбцов, которые имеют смысл для модели, которая, тем не менее, извлекает признаки. используется в глубоком обучении, где CNN будет автоматически изучать функции, запуская квадратную матрицу над изображением, переданным нейронной сети.

Ниже показано, как ядра перемещаются по Сверточной нейронной сети для извлечения признаков (краев и основных признаков, таких как лицо, в случае проблемы классификации кошек или собак) изображения.

МЕТОДЫ ВЫБОРА ПРИЗНАКОВ

  1. Методы фильтрации. В методах фильтрации функции выбираются на основе их оценок в различных статистических тестах (Корреляция, Хи-квадрат, Дисперсионный анализ). для их корреляции с переменной результата.
  2. Методы-оболочки. В методах-оболочках мы пытаемся использовать подмножество функций и обучать модель с их помощью. Основываясь на выводах, которые мы сделали из предыдущей модели, мы решили добавить или удалить функции из подмножества.
  3. Встроенные методы. Встроенные методы сочетают в себе качества фильтров и методов-оболочек. Он реализуется алгоритмами, имеющими собственные встроенные методы выбора признаков. Некоторыми из наиболее популярных примеров этих методов являются регрессия Lasso и Ridge, которые имеют встроенные функции штрафа для уменьшения переобучения.

Давайте немного углубимся в то, что это такое.

  1. Методы фильтрации: –

С помощью методов фильтрации вы можете использовать корреляцию Пирсона, хи-квадрат и дисперсионный анализ, чтобы получить оценки функций.

Корреляция Пирсона – это показатель линейной корреляции между двумя наборами данных. Это отношение между ковариацией двух переменных и произведением их стандартных отклонений; таким образом, это по существу нормализованное измерение ковариации, так что результат всегда имеет значение от -1 до 1.

Статистика хи-квадрат (χ2) — это тест, который измеряет, насколько модель сравнивается с фактическими наблюдаемыми данными. Данные, используемые при расчете статистики хи-квадрат, должны быть случайными, необработанными, взаимоисключающими, взятыми из независимых переменных и взятыми из достаточно большой выборки. Например, результаты подбрасывания правильной монеты соответствуют этим критериям.

ANOVA – это аббревиатура от слова "дисперсионный анализ" и представляет собой параметрическую статистическую проверку гипотез для определения того, соответствуют ли средние значения двух или более выборок данных (часто трех или более) из того же дистрибутива или нет.

Для корреляции вы хотели бы выбирать функции с высокой корреляцией, однако для хи-квадрата в идеале вам не следует не выбирать функции с более высоким p -значения.

Для дисперсионного анализа общим правилом будет выбирать признаки с более высокими показателями дисперсионного анализа. На изображении ниже мы видим, что функции справа имеют более высокий показатель ANOVA, поэтому мы должны выбирать верхние n столбцов справа, а не слева.

2. Методы обертки

В методах-оболочках процесс выбора признаков основан на конкретном алгоритме машинного обучения, который мы пытаемся подогнать к заданному набору данных.

Он следует подходу жадного поиска, оценивая все возможные комбинации функций по критерию оценки. Критерий оценки — это просто мера эффективности, которая зависит от типа проблемы, например. Критерием оценки регрессии может быть p-значение, R-квадрат или скорректированный R-квадрат, аналогично, для классификации критерием оценки может быть точность, прецизионность, отзыв, f1-оценка и т. д.

Наконец, он выбирает комбинацию функций, которая дает оптимальные результаты для указанного алгоритма машинного обучения.

Вы можете использовать методы Рекурсивное исключение функций или Выбор функций вперед, которые подпадают под методы-оболочки выбора функций в машине. обучение

а. Рекурсивное удаление функций

Recursive Feature Elimination (RFE) — это оценщик преобразования, что означает, что он следует знакомому шаблону подбора/преобразования Sklearn. Это популярный алгоритм из-за его легко настраиваемого характера и надежной работы. Как следует из названия, он удаляет функции по одной на основе весов, заданных выбранной нами моделью в каждой итерации.

При наличии внешнего оценщика, который присваивает вес признакам (например, коэффициентам линейной модели), цель рекурсивного исключения признаков (RFE) состоит в том, чтобы выбрать признаки путем рекурсивного рассмотрения все меньших и меньших наборов признаков.

Во-первых, оценщик обучается на исходном наборе признаков, и важность каждого признака определяется либо через какой-либо конкретный атрибут, либо через вызываемый объект. Затем наименее важные функции вырезаются из текущего набора функций.

Эта процедура рекурсивно повторяется для сокращенного набора до тех пор, пока в конечном итоге не будет достигнуто желаемое количество объектов для выбора.

б. Выбор функций вперед

Он начинается с оценки каждой отдельной функции и выбирает наиболее эффективную выбранную модель алгоритма. Затем оцениваются все возможные комбинации выбранной функции и последующей функции, выбирается вторая функция и так далее, пока не будет выбрано требуемое предопределенное количество функций.

Пошаговый выбор функций назад тесно связан и, как вы могли догадаться, начинается со всего набора функций и работает в обратном направлении, удаляя функции, чтобы найти оптимальное подмножество предопределенного размера.

Оба они потенциально очень затратны в вычислительном отношении, поскольку эти методы могут занять слишком много времени, чтобы быть вообще полезными, или могут быть полностью неосуществимыми. Тем не менее, с набором данных подходящего размера и размерности такой подход вполне может быть вашим лучшим подходом.

3. Встроенные методы —

Встроенные методы, как обсуждалось выше, — это методы, которые сочетают в себе методы фильтра и методы-оболочки. Существуют алгоритмы, которые реализуют определение методов выбора признаков и смогут определить важность признаков, с помощью которых окончательная модель может быть заполнена только этими моделями.

Случайный лес, Деревья решений, XGBoost и т. д. — это некоторые из алгоритмов, в которых уже реализован метод выбора признаков. Регрессия Лассо и Риджа реализует регуляризацию, которая наказывает функции, которые не добавляют ценности модели, что позволяет полезным функциям делать прогнозы точно.

ЗАКЛЮЧЕНИЕ

  1. Разработка признаков — это процесс использования знаний предметной области для извлечения признаков (характеристик, свойств, атрибутов) из необработанных данных.
  2. Методы фильтрации и оболочка могут использоваться только для наборов данных малого и среднего размера, так как с большими наборами данных время и мощность вычислений будут больше.
  3. Не существует наилучшего метода выбора функций. Точно так же, как не существует лучшего набора входных переменных или лучшего алгоритма машинного обучения. По крайней мере, не повсеместно. Вместо этого вы должны обнаружить, что лучше всего подходит для решения вашей конкретной проблемы, путем тщательных систематических экспериментов.
  4. Попробуйте диапазон различных моделей, которые подходят для различных подмножеств функций, выбранных с помощью различных статистических показателей, и узнайте, что лучше всего подходит для вашей конкретной проблемы.

Заключительные мысли и заключительные комментарии

Есть некоторые жизненно важные моменты, которые люди не понимают, занимаясь наукой о данных или путешествием в области искусственного интеллекта. Если вы один из них и ищете способ уравновесить эти минусы, ознакомьтесь с программами сертификации, предоставляемыми INSAID на их веб-сайте. .

Если вам понравилась эта статья, я рекомендую вам пройти Global Certificate in Data Science & AI, потому что этот сертификат будет охватывать ваши основы, алгоритмы машинного обучения и глубокие нейронные сети (базовые для продвижения).