Различные методы нормализации

Нормализация направлена на преобразование функций, чтобы они были в одинаковом масштабе. Это улучшает производительность и стабильность обучения модели.

Допустим, мы хотим предсказать цену дома и иметь две характеристики: количество комнат и площадь. В этом случае вы можете быстро понять, что диапазон, в котором работает каждая функция, сильно отличается от другого. В таком случае нам нужно нормализовать данные и не позволять ни одному из них доминировать над другим.

Существует несколько методов нормализации, но в этой статье мы видим четыре наиболее распространенных:

Масштабирование до диапазона.
Отсечение.
Масштабирование журнала.
Z-оценка.

Масштабирование в диапазоне – это классический метод. Формула этого метода обнаружена ниже:

Отсечение означает, что когда у нас есть некоторые выбросы данных или некоторые данные со значением, значительно отличающимся от других, мы удаляем (обрезаем) их.
Масштабирование журнала используется, когда у нас есть значительные различия и мы хотим уменьшить масштаб. Например, количество фотонов, которые могут поглотить наши глаза, распределяется в различных диапазонах. Это может быть несколько фотонов в темноте и много фотонов на свету. В этом случае наша сетчатка пытается их масштабировать.
Другой статистической формулой является Z-Score. Он использует среднее значение и стандартное отклонение:

Ниже вы можете увидеть эффект от использования каждого метода, упомянутого ранее:

Как мы уже упоминали, «Отсечение» используется в основном, когда у нас есть выбросы. В этом случае после использования Clipping вы также можете использовать другие методы нормализации.

И эффект логарифмической шкалы иллюстрируется следующим примером:

Различные методы нормализации

Вопросы по теме