Предварительная обработка данных

Предварительная обработка данных - это способ обработать данные перед созданием модели. Используется несколько техник. Некоторые из них перечислены ниже.

Методы кодирования: в этом методе мы преобразуем категориальные данные в числовые данные. Существует шесть типов методов кодирования. Эти:

Кодировка метки: здесь все категории подписали значения от 1 до N, т. е. N категорий. Основным недостатком этой кодировки является то, что алгоритм считал ее порядковым номером.
Сопоставление характеристик: в основном используется для переменных порядковых категорий. Отображение признаков - это функция, которая сопоставляет вектор данных с пространством признаков.
Одно горячее кодирование. В этом случае кодирование выполняется в двоичном формате. т.е. если категория присутствует, то 1, в противном случае 0. На основе количества категорий формируется n новых столбцов.
Двоичная кодировка: в этой категории преобразуется в двоичные цифры. Каждая двоичная цифра создает один столбец характеристик. Итого log n по базе 2, новые функции сформированы.
Кодировка BaseN. Этот метод основан на базе. Мы можем использовать это, импортировав category_encoders в python.

6. Целевая кодировка. Здесь она основана на целевой функции.

Преобразование данных

Он используется для числовых данных.

Некоторые методы:

Преобразование квадратного и кубического корня
Преобразование журнала
Трансформация Boxcox

Есть два метода уменьшения масштаба данных: стандартизация и нормализация.

Нормализация. При этом масштаб данных уменьшается от 0 до 1. Это можно сделать с помощью MinMaxScaler.

2. Стандартизация. В этом методе данные уменьшаются, среднее значение приближается к 0, а стандартное отклонение - до 1.

Предварительная обработка данных

Преобразование данных

Вопросы по теме