Нормализация VSМетоды предварительной обработки стандартизации в машинном обучении

Когда я начал работать с обработкой сигналов, анализом и машинным обучением на необработанном наборе данных, я столкнулся со многими концепциями, которые имеют решающее значение в исследованиях, на рынке труда или для самообучения. Таким образом, я делюсь в этом блоге плодами того, что я узнал о двух концепциях: нормализации и стандартизации. Зачем и когда использовать каждый из них? и как это приведет к улучшению нашей модели. Давайте начнем с определения каждой концепции и копнем глубже.

Нормализация – это метод предварительной обработки сопоставления данных, изменения их масштаба в диапазоне от 0 до 1, который также называется масштабированием по минимуму и максимуму. Таким образом, нормализация данных приводит данные к одному и тому же диапазону с использованием общего масштаба! Другими словами, нормализованное значение для минимального значения набора данных всегда будет равно 0. Максимальное значение нормализованного значения набора данных всегда будет равно 1. Все остальные значения в наборе данных будут иметь нормализованные значения от 0 до 1. Таким образом, возникает важный вопрос. , когда мы должны использовать нормализацию? Нормализация данных может значительно повысить точность модели. Следовательно, чтобы решить проблему обучения модели, мы нормализуем обучающие данные. Чтобы градиентные спуски могли сходиться быстрее, мы следим за тем, чтобы различные функции имели одинаковые диапазоны значений. Теперь, как вычислить нормализацию? существуют разные способы сделать это в зависимости от характера набора данных, однако наиболее распространенным и простым способом его вычисления является использование следующей формулы:

Между тем, sстандартизация — это метод установки среднего значения данных равным нулю и стандартного отклонения равным 1, который также называется нормализацией Z-показателя. Это достигается применением следующей формулы:

Нормализация Max-Min, в отличие от k-ближайших соседей и ANN, позволяет нам преобразовывать данные с различными масштабами, чтобы ни одно измерение не доминировало в статистике. Это также не предполагает принятия сильных предположений о распределении данных. Аутлайнеры, с другой стороны, плохо обрабатываются при нормализации. Стандартизация, с другой стороны, позволяет лучше справляться с выбросами и ускорять сходимость для определенных вычислительных методов, таких как градиентный спуск. В результате стандартизация часто предпочтительнее нормализации минимум-макс, но это не всегда так.

Итак, в общем, когда использовать нормализацию и стандартизацию, ну, нормализация - хороший выбор, когда распределение данных не соответствует распределению Гаусса. Напротив, стандартизация может быть полезна, когда данные следуют распределению Гаусса.