Что?

Это шаг предварительной обработки данных, который применяется к независимым переменным для нормализации данных в определенном диапазоне. Это также помогает ускорить вычисления в алгоритме.

Почему?

В большинстве случаев собранный набор данных содержит объекты, сильно различающиеся по величине, единицам измерения и диапазону. Если масштабирование не выполняется, алгоритм учитывает только величину, а не единицы, что приводит к неправильному моделированию. Чтобы решить эту проблему, нам нужно выполнить масштабирование, чтобы привести все переменные к одному уровню величины.

Важно отметить, что масштабирование влияет только на коэффициенты и ни на какие другие параметры, такие как t-статистика, F-статистика, p-значения, R-квадрат. и т. д.

Нормализация/минимально-максимальное масштабирование:

  • Он приносит все данные в диапазоне от 0 до 1. sklearn.preprocessing.MinMaxScalerпомогает реализовать нормализацию в python.

Масштабирование стандартизации:

  • При стандартизации значения заменяются их Z-значениями. Он приводит все данные к стандартному нормальному распределению со средним значением (μ), равным нулю, и стандартным отклонением, равным единице (σ).

  • sklearn.preprocessing.scale помогает реализовать стандартизацию в Python.
  • Одним из недостатков нормализации по сравнению со стандартизацией является то, что она теряет некоторую информацию в данных, особенно в отношении выбросов.

Пример:

Ниже показан пример стандартизированного и нормализованного масштабирования исходных значений.