Цель этого блога - объяснить наиболее запутанные концепции проектирования функций, такие как стандартизация и нормализация. Оба выглядят очень похожими, и большую часть времени большинство людей не понимают разницы между ними и сценария использования каждого из них. Но не беспокойтесь, этот блог будет действовать как рука помощи, чтобы все понимали разницу между ними и их вариантами использования.

Совершенно нормально, если вы запутались между темами «Стандартизация» и «Нормализация». Несколько месяцев назад я был одним из вас, поэтому я могу полностью понять это чувство замешательства, а иногда и разочарования, потому что не было хорошего и простого ресурса для объяснения темы.

Но не о чем беспокоиться, потому что этот блог не только устранит все сомнения между этими темами, но также предоставит их варианты использования, то есть когда их использовать.

Важные предварительные знания!

Прежде чем объяснять разницу между «стандартизацией» и «нормализацией», позвольте мне создать контекст для этого.

Стандартизация и нормализация являются частью Feature Engineering, которая, в свою очередь, является частью Data Science.

Если вы хотите узнать о Data Science Pipeline, загляните в этот блог:



Что такое Data Science Pipeline?
Несомненно, в современном мире« Data Science
- модное слово. Все продолжают говорить о науке о данных. Но… medium.com »



Разработка функций означает применение вашего инженерного ума и навыков для оптимизации функций, чтобы модель могла быть эффективно и легко обучена этим функциям.

Стандартизация и Нормализация используются для масштабирования функций (масштабирование функций до указанного диапазона вместо того, чтобы находиться в большом диапазоне, что очень сложно для понимания модели. ), но оба они различаются по способу работы, а также их следует использовать в конкретных сценариях использования (обсуждаемых далее в этом блоге).

Этого количества информации достаточно для настройки контекста перед объяснением тем. Теперь перейдем непосредственно к основным темам.

Стандартизация

Это понятие относится к нормальному распределению данных.

Он преобразует среднее значение данных в 0, а его дисперсию в 1. Поскольку значение данных стремится к бесконечности, дисперсия данных стремится к 1.

Например, рассмотрим данные, показанные ниже:

Теперь, когда к этим данным применяется стандартизация, они будут преобразованы в данные, показанные ниже.

Формула, по которой применяется преобразование!

На изображении выше x - это значение в данных, «mu» - это среднее значение данных, а «sigma» - это дисперсия данных.

Внедрение стандартизации данных!

Нормализация

Эта концепция относится к преобразованию данных в диапазон [0, 1].

Каждая запись данных в наборе данных будет преобразована в диапазон от 0 до 1, так что данные попадают в узкий диапазон, который помогает модели учиться.

Например, рассмотрим данные, показанные ниже:

Теперь, когда к этим данным применяется нормализация, они будут преобразованы в данные, показанные ниже.

Формула, по которой применяется преобразование!

Минимальные и максимальные значения Captial X представляют собой минимальное и максимальное значения в наборе данных соответственно.

Маленький x представляет собой конкретную запись данных в данных.

Реализация нормализации данных!

Примечание. Обе указанные выше библиотеки StandardScaler и MinMaxScaler очень чувствительны к выбросам, присутствующим в данных, поскольку с учетом каждой точки данных вычисляются значения, которые используются для стандартизации и нормализации данных.

Пример использования Standardizer!

  • В большинстве моделей машинного обучения он используется, и, согласно моему опыту и опыту многих других людей, он превосходит MinMaxScaler (нормализация).
  • В любом месте, где нет необходимости масштабировать объекты в диапазоне от 0 до 1.
  • Поскольку он преобразует нормальное распределение данных в стандартное нормальное распределение, которое является идеальным и ожидаемым, в большинстве случаев его лучше всего использовать в моделях машинного обучения.

Пример использования нормализатора!

  • В любой ситуации, когда диапазон функций должен быть от 0 до 1. Например, в данных изображений у нас есть диапазон цветных пикселей от 0 до 255 (всего 256 цветов), здесь лучше всего использовать нормализатор.
  • Может быть несколько сценариев, в которых ожидается этот диапазон, там оптимально использовать MinMaxScaler.

Я надеюсь, что моя статья объясняет все, что связано с темой, со всеми глубокими концепциями и объяснениями. Большое вам спасибо за то, что вы потратили свое время на чтение моего блога и расширение своих знаний. Если вам нравятся мои работы, то прошу вас аплодировать этому блогу!