Предварительная обработка данных считается одним из самых важных шагов в правильном функционировании модели Making Learning.

Мы можем легко получить тонны данных в виде различных наборов данных, но чтобы сделать эти данные пригодными для получения из них различных идей, требуется много наблюдений, модификаций, манипуляций и множество других шагов.

Что это?

Когда мы только что загружаем набор данных для нашего проекта или какой-либо другой работы, данные, которые он содержит, являются случайными (большую часть времени), то есть не упорядочены или не заполнены так, как нам нужно.

Иногда это может иметь

  • НУЛЕВЫЕ значения
  • Ненужные функции
  • Типы данных не в правильном формате.

и т. д.

Итак, чтобы устранить все эти недостатки, мы используем процесс, широко известный как «Предварительная обработка данных».

Приложения

Предварительная обработка данных так или иначе используется практически в каждой задаче машинного обучения. Имеет очень широкий спектр применения.

Как мы выполняем предварительную обработку?

Существует множество способов предварительной обработки данных, в зависимости от наших потребностей, мы продолжим.

Пример 1. Если в нашем наборе данных есть значения NULL.

  • Мы можем просто отбросить наши значения NULL, если их не так много, и если их удаление не повлияет на наш набор данных.
  • Мы также можем обрабатывать значения NULL, заменяя их средним значением, медианой или режимом этого столбца. Это зависит от нашей потребности.

Пример 2. Если у нас нет даты и времени в правильном формате.

Для этого мы можем использовать pd.to_datetime().

Рекомендуется объявить функцию, чтобы не вводить один и тот же код для других столбцов снова и снова.

Пример 3. Если мы хотим заменить бесполезные строковые значения из столбца

Мы можем использовать replace() для этого, после замены правильными числовыми значениями наш набор данных будет более полезным.

Пример 4. Если в нашем наборе данных есть бесполезный столбец.

Здесь мы можем просто использовать drop() с необходимыми параметрами.

Пример 5. Когда мы хотим преобразовать столбец строкового типа (текст) в числовой тип, это делается для правильной реализации алгоритмов машинного обучения в нашем наборе данных.

Теперь мы можем объединить этот мини-набор данных с нашим фактическим набором данных и удалить его столбец «Источник». Это также называется One Hot E кодированием.

Это были некоторые примеры предварительной обработки данных в машинном обучении, мы также можем предварительно обрабатывать наши данные многими другими способами, в соответствии с нашими потребностями.

Удачного обучения!

Вы также можете посетить мои предыдущие блоги, нажав на их название ниже.

Подпишитесь на меня в LinkedInhttps://www.linkedin.com/in/imvat18/