Мы часто слышим это слово при работе с моделями машинного обучения, и оно считается неотъемлемой частью жизненного цикла машинного обучения. Итак, сегодня в этом блоге я объясню вам, что такое предварительная обработка данных и как она работает.

Что такое предварительная обработка данных?

  1. Предварительная обработка данных, как следует из этого слова, — это предварительная обработка данных. Это означает, что перед обработкой данных в модели для обучения и тестирования мы предварительно обрабатываем их для создания и приведения в правильный формат.
  2. Вы проверяете и анализируете необработанные данные и работаете с ними, чтобы получить желаемый формат данных, чтобы в дальнейшем при построении модели мы не сталкивались с какими-либо проблемами с данными.
  3. Основная предварительная обработка выполняется для таких данных, как отсутствующие значения, неправильные форматы, зашумленные данные (бесполезные данные), очистка данных и т. д.
  4. Данные должны быть чистыми, не должно быть пропущенных значений и должны быть полезными, чтобы мы могли предоставить эти данные нашей модели для обучения и тестирования.

Каковы этапы предварительной обработки данных?

Этапы предварительной обработки данных следующие: -
1. Импорт библиотек

На этом самом первом шаге мы импортируем все библиотеки, которые нам нужны в нашей модели. мы делаем это для того, чтобы мы могли легко использовать их в нашем алгоритме.

2. Импорт набора данных

На этом этапе мы импортируем наш набор данных с помощью pandas, чтобы наша программа могла читать CSV-файл, и мы могли использовать данные для работы с ним для прогнозирования результатов.

3. Работа с отсутствующими данными

Чтобы получить более точные прогнозы, важно, чтобы наши данные были точными, а в наборе данных не должно быть пропущенных значений, чтобы избежать несоответствий в модели. Для этого мы будем использовать простой импутер. Simple Imputer — это класс библиотеки Python sklearn, основная цель которого — обработка недостающих данных.

4. Кодирование категориальных данных

Кодирование категориальных данных — это чистая форма преобразования категориальных данных, что означает различные категории в целочисленный формат. Например: какие учащиеся выполнили свою домашнюю работу, это будет 2 категории: да или нет. Таким образом, категориальные значения преобразуются в двоичную форму, чтобы предсказать результат для следующего ввода.

5. Кодирование независимой переменной

6. Кодирование зависимой переменной

7. Разделение данных на обучение и тестирование

Чтобы обучить модель и изучить данные, нам нужно разделить набор данных на 2 части: данные обучения и данные тестирования. В основном мы следуем правилу 80/20 или 70/30 для разделения набора данных, что означает 80% данных для обучения и 20% для тестирования. Чем больше обучение, тем точнее модель будет предсказывать результат, а расчеты будут подходящими для повышения производительности модели.

8. Масштабирование функций

Масштабирование функций — полезный метод для балансировки и стандартизации независимых функций, присутствующих в фиксированном диапазоне. Важно масштабировать признаки, чтобы наша модель не принимала высоких значений. Два метода масштабирования объектов — это нормализация и стандартизация.

Это было все о предварительной обработке данных в машинном обучении. Этот шаг мы выполняем для обработки данных и разделения набора данных.