Нормализация направлена ​​​​на преобразование функций, чтобы они были в одинаковом масштабе. Это улучшает производительность и стабильность обучения модели.

Допустим, мы хотим предсказать цену дома и иметь две характеристики: количество комнат и площадь. В этом случае вы можете быстро понять, что диапазон, в котором работает каждая функция, сильно отличается от другого. В таком случае нам нужно нормализовать данные и не позволять ни одному из них доминировать над другим.

Существует несколько методов нормализации, но в этой статье мы видим четыре наиболее распространенных:

  1. Масштабирование до диапазона.
  2. Отсечение.
  3. Масштабирование журнала.
  4. Z-оценка.
  • Масштабирование в диапазоне – это классический метод. Формула этого метода обнаружена ниже:

  • Отсечение означает, что когда у нас есть некоторые выбросы данных или некоторые данные со значением, значительно отличающимся от других, мы удаляем (обрезаем) их.
  • Масштабирование журнала используется, когда у нас есть значительные различия и мы хотим уменьшить масштаб. Например, количество фотонов, которые могут поглотить наши глаза, распределяется в различных диапазонах. Это может быть несколько фотонов в темноте и много фотонов на свету. В этом случае наша сетчатка пытается их масштабировать.
  • Другой статистической формулой является Z-Score. Он использует среднее значение и стандартное отклонение:

Ниже вы можете увидеть эффект от использования каждого метода, упомянутого ранее:

Как мы уже упоминали, «Отсечение» используется в основном, когда у нас есть выбросы. В этом случае после использования Clipping вы также можете использовать другие методы нормализации.

И эффект логарифмической шкалы иллюстрируется следующим примером: