Предварительная обработка данных - это способ обработать данные перед созданием модели. Используется несколько техник. Некоторые из них перечислены ниже.
Методы кодирования: в этом методе мы преобразуем категориальные данные в числовые данные. Существует шесть типов методов кодирования. Эти:
- Кодировка метки: здесь все категории подписали значения от 1 до N, т. е. N категорий. Основным недостатком этой кодировки является то, что алгоритм считал ее порядковым номером.
- Сопоставление характеристик: в основном используется для переменных порядковых категорий. Отображение признаков - это функция, которая сопоставляет вектор данных с пространством признаков.
- Одно горячее кодирование. В этом случае кодирование выполняется в двоичном формате. т.е. если категория присутствует, то 1, в противном случае 0. На основе количества категорий формируется n новых столбцов.
- Двоичная кодировка: в этой категории преобразуется в двоичные цифры. Каждая двоичная цифра создает один столбец характеристик. Итого log n по базе 2, новые функции сформированы.
- Кодировка BaseN. Этот метод основан на базе. Мы можем использовать это, импортировав category_encoders в python.
6. Целевая кодировка. Здесь она основана на целевой функции.
Преобразование данных
Он используется для числовых данных.
Некоторые методы:
- Преобразование квадратного и кубического корня
- Преобразование журнала
- Трансформация Boxcox
Есть два метода уменьшения масштаба данных: стандартизация и нормализация.
- Нормализация. При этом масштаб данных уменьшается от 0 до 1. Это можно сделать с помощью MinMaxScaler.
2. Стандартизация. В этом методе данные уменьшаются, среднее значение приближается к 0, а стандартное отклонение - до 1.