Что?
Это шаг предварительной обработки данных, который применяется к независимым переменным для нормализации данных в определенном диапазоне. Это также помогает ускорить вычисления в алгоритме.
Почему?
В большинстве случаев собранный набор данных содержит объекты, сильно различающиеся по величине, единицам измерения и диапазону. Если масштабирование не выполняется, алгоритм учитывает только величину, а не единицы, что приводит к неправильному моделированию. Чтобы решить эту проблему, нам нужно выполнить масштабирование, чтобы привести все переменные к одному уровню величины.
Важно отметить, что масштабирование влияет только на коэффициенты и ни на какие другие параметры, такие как t-статистика, F-статистика, p-значения, R-квадрат. и т. д.
Нормализация/минимально-максимальное масштабирование:
- Он приносит все данные в диапазоне от 0 до 1. sklearn.preprocessing.MinMaxScalerпомогает реализовать нормализацию в python.
Масштабирование стандартизации:
- При стандартизации значения заменяются их Z-значениями. Он приводит все данные к стандартному нормальному распределению со средним значением (μ), равным нулю, и стандартным отклонением, равным единице (σ).
- sklearn.preprocessing.scale помогает реализовать стандартизацию в Python.
- Одним из недостатков нормализации по сравнению со стандартизацией является то, что она теряет некоторую информацию в данных, особенно в отношении выбросов.
Пример:
Ниже показан пример стандартизированного и нормализованного масштабирования исходных значений.