Выбор функций?

Выбор признаков — это процесс выбора подмножества важных признаков/переменных, наиболее подходящих для нашей модели или анализа.

Важность

Наличие нерелевантных функций снижает точность модели, а также увеличивает время ее обработки, не обеспечивая при этом никакой ценности для прогноза. Эти функции могут негативно повлиять на производительность модели.

Вот несколько преимуществ выбора функций:

  • Повышение точности
  • Уменьшение вероятности чрезмерной подгонки
  • Более быстрое обучение модели
  • Улучшение визуализации данных

Когда мы это сделаем?

Выбор функций — один из первых и важных этапов разработки проекта. Он сразу же приходит на смену EDA (исследовательскому анализу данных).

Методы выбора функций:

Эти методы предназначены для уменьшения количества переменных, которые мы используем для прогнозов. Мы можем обобщить эти методы следующим образом:

Неконтролируемое:для моделей обучения без учителя, в которых у нас нет целевой переменной, мы можем удалить избыточные переменные, идентифицируя их с помощью Корреляции.

Под наблюдением:

  • Метод оболочки — сначала мы строим и обучаем модель, используя случайное подмножество переменных. На основе выводов из этих моделей мы добавляем/удаляем переменные из подмножества и снова строим нашу модель. Эти модели обычно требуют значительных вычислительных ресурсов. Некоторые методы: прямой выбор, обратный выбор и RFE (рекурсивное устранение признаков).
  • Метод фильтрации. В этом методе мы выбираем подмножества функций на основе их связи с целевыми переменными, используя статистические методы или методы важности функций. Чаще всего мы используем статистическую меру корреляционного типа в качестве основы для этого метода. Но выбор статистической меры сильно зависит от типа данных переменной. Приведенная ниже таблица может помочь вам определить правильный метод фильтрации:

Коэффициент корреляции Пирсона измеряет взаимосвязь между двумя числовыми переменными, имеющими линейную корреляцию, и если корреляция нелинейная, мы используем ранговый коэффициент Спирмена. ANOVA расшифровывается как дисперсионный анализ. Он используется, когда один из входных или выходных данных является категориальным. Хи-квадрат является наиболее распространенной мерой корреляции для категориальных данных.

  • Внутренние или встроенные методы —алгоритмы, которые автоматически выполняют выбор признаков, в то время как обучающие модели или, другими словами, выбор признаков встроен в алгоритм. Некоторыми примерами таких алгоритмов являются регрессия Лассо, регрессия Риджа и деревья решений.

Примечание. Мы также можем использовать методы уменьшения размерности, такие как PCA (анализ основных компонентов), для проецирования входных переменных в низкоразмерное пространство признаков, когда нам нужно иметь дело с большим количеством переменных.

Это всего лишь суть выбора функций, важности и методов. Приятного чтения

Спасибо и свяжитесь со мной