Нормализация, масштабирование и стандартизация — это методы «предварительной обработки данных», которые используются для преобразования данных в другую форму, более удобную для использования, без потери большого количества информации из данных.

эти методы играют важную роль в обучении многих алгоритмов машинного обучения (например, SVM, KNN), которые могут обеспечить высокую точность для обучаемой модели.

1-Нормализация: метод масштабирования или метод сопоставления
Где мы можем найти новый диапазон из существующего диапазона (наиболее распространенный - (0,1), (-1,1))

Нормализация — хороший метод, который можно использовать, когда вы не знаете распределение ваших данных или когда вы знаете, что распределение не является гауссовским (гауссова кривая).

нормализовать данные полезно для целей прогнозирования или прогнозирования. Предположим, что набор данных состоит из двух столбцов, первый с диапазоном [0:1], а второй с диапазоном [1:100000]. Плохая сторона этой формы заключается в том, что функция потерь слишком чувствительна с небольшими отклонениями. .

существуют некоторые существующие методы нормализации.

1- Минимально-максимальная нормализация

вы преобразуете данные таким образом, чтобы функции находились в определенном диапазоне, например. [0, 1].

как мы заметили, диапазон значений изменился.

этот метод полезен с алгоритмами, использующими евклидово расстояние (например, KNN) и другими алгоритмами классификации, такими как SVM, а также уменьшает влияние выбросов.

2- z-оценка (нормализация или стандартизация): преобразует данные, чтобы иметь среднее значение, равное нулю, и стандартное отклонение, равное 1.

Термины нормализация и стандартизация иногда используются взаимозаменяемо, но обычно они относятся к разным вещам. Нормализацияобычно означает масштабирование переменной так, чтобы она имела значения от 0 до 1, а стандартизацияпреобразовывает данные таким образом, чтобы среднее значение равнялось нулю, а стандартное отклонение равнялось 1. Это стандартизация называется z-оценкой.

Z-оценка также является методом нормализации.

Преимущества z-оценки заключаются в ее простоте и возможности исключать выбросы (выигрыш), когда z-оценка экстремальна. Он также сохраняет неизменной выборочную корреляцию между признаками.

Основным недостатком является потеря информации об уровне среднего значения и стандартного отклонения в разные моменты времени при применении нормализации поперечного сечения. Очевидно, что если исходные признаки не распределены нормально, то и трансформированные не будут распределены нормально.

3-масштабирование: (также называемое мин-макс масштабированием)

вы преобразуете данные таким образом, чтобы функции находились в определенном диапазоне, например. [0, 1].

вывод:

когда в вашем наборе данных есть выбросы, это делает его более чувствительным к ним.
Также, если ваш алгоритм зависит от расстояния (например, KNN, SVM),
нормализация — лучший выбор.

если вы обучаете сложную нейронную сеть, стандартизация хороша тем, что предотвращает проблему исчезающего градиента и ускоряет обучение.