Предварительная обработка данных - это способ обработать данные перед созданием модели. Используется несколько техник. Некоторые из них перечислены ниже.

Методы кодирования: в этом методе мы преобразуем категориальные данные в числовые данные. Существует шесть типов методов кодирования. Эти:

  1. Кодировка метки: здесь все категории подписали значения от 1 до N, т. е. N категорий. Основным недостатком этой кодировки является то, что алгоритм считал ее порядковым номером.
  2. Сопоставление характеристик: в основном используется для переменных порядковых категорий. Отображение признаков - это функция, которая сопоставляет вектор данных с пространством признаков.
  3. Одно горячее кодирование. В этом случае кодирование выполняется в двоичном формате. т.е. если категория присутствует, то 1, в противном случае 0. На основе количества категорий формируется n новых столбцов.
  4. Двоичная кодировка: в этой категории преобразуется в двоичные цифры. Каждая двоичная цифра создает один столбец характеристик. Итого log n по базе 2, новые функции сформированы.
  5. Кодировка BaseN. Этот метод основан на базе. Мы можем использовать это, импортировав category_encoders в python.

6. Целевая кодировка. Здесь она основана на целевой функции.

Преобразование данных

Он используется для числовых данных.

Некоторые методы:

  1. Преобразование квадратного и кубического корня
  2. Преобразование журнала
  3. Трансформация Boxcox

Есть два метода уменьшения масштаба данных: стандартизация и нормализация.

  1. Нормализация. При этом масштаб данных уменьшается от 0 до 1. Это можно сделать с помощью MinMaxScaler.

2. Стандартизация. В этом методе данные уменьшаются, среднее значение приближается к 0, а стандартное отклонение - до 1.