Мы часто слышим это слово при работе с моделями машинного обучения, и оно считается неотъемлемой частью жизненного цикла машинного обучения. Итак, сегодня в этом блоге я объясню вам, что такое предварительная обработка данных и как она работает.
Что такое предварительная обработка данных?
- Предварительная обработка данных, как следует из этого слова, — это предварительная обработка данных. Это означает, что перед обработкой данных в модели для обучения и тестирования мы предварительно обрабатываем их для создания и приведения в правильный формат.
- Вы проверяете и анализируете необработанные данные и работаете с ними, чтобы получить желаемый формат данных, чтобы в дальнейшем при построении модели мы не сталкивались с какими-либо проблемами с данными.
- Основная предварительная обработка выполняется для таких данных, как отсутствующие значения, неправильные форматы, зашумленные данные (бесполезные данные), очистка данных и т. д.
- Данные должны быть чистыми, не должно быть пропущенных значений и должны быть полезными, чтобы мы могли предоставить эти данные нашей модели для обучения и тестирования.
Каковы этапы предварительной обработки данных?
Этапы предварительной обработки данных следующие: -
1. Импорт библиотек
На этом самом первом шаге мы импортируем все библиотеки, которые нам нужны в нашей модели. мы делаем это для того, чтобы мы могли легко использовать их в нашем алгоритме.
2. Импорт набора данных
На этом этапе мы импортируем наш набор данных с помощью pandas, чтобы наша программа могла читать CSV-файл, и мы могли использовать данные для работы с ним для прогнозирования результатов.
3. Работа с отсутствующими данными
Чтобы получить более точные прогнозы, важно, чтобы наши данные были точными, а в наборе данных не должно быть пропущенных значений, чтобы избежать несоответствий в модели. Для этого мы будем использовать простой импутер. Simple Imputer — это класс библиотеки Python sklearn, основная цель которого — обработка недостающих данных.
4. Кодирование категориальных данных
Кодирование категориальных данных — это чистая форма преобразования категориальных данных, что означает различные категории в целочисленный формат. Например: какие учащиеся выполнили свою домашнюю работу, это будет 2 категории: да или нет. Таким образом, категориальные значения преобразуются в двоичную форму, чтобы предсказать результат для следующего ввода.
5. Кодирование независимой переменной
6. Кодирование зависимой переменной
7. Разделение данных на обучение и тестирование
Чтобы обучить модель и изучить данные, нам нужно разделить набор данных на 2 части: данные обучения и данные тестирования. В основном мы следуем правилу 80/20 или 70/30 для разделения набора данных, что означает 80% данных для обучения и 20% для тестирования. Чем больше обучение, тем точнее модель будет предсказывать результат, а расчеты будут подходящими для повышения производительности модели.
8. Масштабирование функций
Масштабирование функций — полезный метод для балансировки и стандартизации независимых функций, присутствующих в фиксированном диапазоне. Важно масштабировать признаки, чтобы наша модель не принимала высоких значений. Два метода масштабирования объектов — это нормализация и стандартизация.
Это было все о предварительной обработке данных в машинном обучении. Этот шаг мы выполняем для обработки данных и разделения набора данных.