Предварительная обработка данных — это шаг после сбора данных или сбора данных. Он включает в себя понимание данных и их обработку в подходящем формате, который соответствует нашей модели машинного обучения и позволяет получить максимальные результаты.

Это занимает около 70% времени в проекте Data Science. Данные могут быть структурированными или неструктурированными, данные могут иметь выбросы и пропущенные значения во время сбора.

Что нужно сделать перед началом предварительной обработки данных

Сделать шаг предварительной обработки данных более эффективным. Мы должны прояснить следующие моменты.

  1. Очень хорошо понимать данные
  2. Будьте ясны с Постановкой проблемы
  3. Собранные данные должны быть получены из аутентифицированного источника.
  4. Поймите, какой тип и свойства должны быть у ваших данных, чтобы модель машинного обучения работала эффективно.

Этапы предварительной обработки данных

В предварительной обработке данных в основном задействованы четыре этапа.

  1. Очистка данных. Это процесс, в ходе которого в наборе данных обрабатываются повторяющиеся значения, выбросы и отсутствующие значения. Очистка данных может потребовать экспертных знаний в предметной области для удаления нежелательных функций из набора данных.
  2. Интеграция данных. Это способ объединить данные, собранные из разных источников данных, и показать или сохранить их в едином формате. Этот шаг может быть сложным, так как интеграция может создать избыточные точки данных, несогласованность, конфликт точек данных в наборе данных и т. д.
  3. Сокращение данных.Сокращение данных — это процесс сокращения или удаления ненужных функций из данных. Чем выше признаки во входной переменной, тем выше будет временная сложность алгоритма машинного обучения. поэтому становится важным удалить те функции, которые не вносят большого вклада в целевую переменную. Сокращение размеров и выбор признаков — два основных метода сокращения данных.
  4. Преобразование данных.Это процесс преобразования данных из одного формата в другой. Преобразование данных важно, так как оно позволяет компьютерам понимать данные в стандартном формате. Например, изменение масштаба, нормализация, оперативное кодирование, кодирование меток и т. д.

Темы, рассмотренные выше, предназначены только для того, чтобы дать общее представление о предварительной обработке данных.

Спасибо, что прочитали :)