Выбор функций?
Выбор признаков — это процесс выбора подмножества важных признаков/переменных, наиболее подходящих для нашей модели или анализа.
Важность
Наличие нерелевантных функций снижает точность модели, а также увеличивает время ее обработки, не обеспечивая при этом никакой ценности для прогноза. Эти функции могут негативно повлиять на производительность модели.
Вот несколько преимуществ выбора функций:
- Повышение точности
- Уменьшение вероятности чрезмерной подгонки
- Более быстрое обучение модели
- Улучшение визуализации данных
Когда мы это сделаем?
Выбор функций — один из первых и важных этапов разработки проекта. Он сразу же приходит на смену EDA (исследовательскому анализу данных).
Методы выбора функций:
Эти методы предназначены для уменьшения количества переменных, которые мы используем для прогнозов. Мы можем обобщить эти методы следующим образом:
Неконтролируемое:для моделей обучения без учителя, в которых у нас нет целевой переменной, мы можем удалить избыточные переменные, идентифицируя их с помощью Корреляции.
Под наблюдением:
- Метод оболочки — сначала мы строим и обучаем модель, используя случайное подмножество переменных. На основе выводов из этих моделей мы добавляем/удаляем переменные из подмножества и снова строим нашу модель. Эти модели обычно требуют значительных вычислительных ресурсов. Некоторые методы: прямой выбор, обратный выбор и RFE (рекурсивное устранение признаков).
- Метод фильтрации. В этом методе мы выбираем подмножества функций на основе их связи с целевыми переменными, используя статистические методы или методы важности функций. Чаще всего мы используем статистическую меру корреляционного типа в качестве основы для этого метода. Но выбор статистической меры сильно зависит от типа данных переменной. Приведенная ниже таблица может помочь вам определить правильный метод фильтрации:
Коэффициент корреляции Пирсона измеряет взаимосвязь между двумя числовыми переменными, имеющими линейную корреляцию, и если корреляция нелинейная, мы используем ранговый коэффициент Спирмена. ANOVA расшифровывается как дисперсионный анализ. Он используется, когда один из входных или выходных данных является категориальным. Хи-квадрат является наиболее распространенной мерой корреляции для категориальных данных.
- Внутренние или встроенные методы —алгоритмы, которые автоматически выполняют выбор признаков, в то время как обучающие модели или, другими словами, выбор признаков встроен в алгоритм. Некоторыми примерами таких алгоритмов являются регрессия Лассо, регрессия Риджа и деревья решений.
Примечание. Мы также можем использовать методы уменьшения размерности, такие как PCA (анализ основных компонентов), для проецирования входных переменных в низкоразмерное пространство признаков, когда нам нужно иметь дело с большим количеством переменных.
Это всего лишь суть выбора функций, важности и методов. Приятного чтения