Предварительная обработка данных - это основной шаг в процессе машинного обучения. Этим часто пренебрегают, но это важный шаг. Необработанные данные очень подвержены шуму, отсутствию данных и ненадежным данным. Предварительная обработка данных включает в себя очистку, нормализацию, преобразование, извлечение и выбор признаков и т. Д. Качество данных влияет на результат работы алгоритма.

Метод предварительной обработки данных включает:

  • Очистка данных
  • Интеграция данных
  • Преобразование данных
  • Сжатие данных

Очистка данных

Данные могут быть неполными (отсутствуют значения атрибутов), зашумленными (содержат ошибки или выбросы) и противоречивыми.

Отсутствующие значения: данные могут содержать некоторые отсутствующие или нулевые значения. Эти недостающие значения можно заполнить для атрибута различными способами:

  • Игнорировать кортеж: Если метка класса отсутствует. Этот метод не очень эффективен, если кортеж не содержит нескольких атрибутов с пропущенными значениями.
  • Заполните отсутствующее значение вручную
  • Используйте глобальную константу для заполнения отсутствующего значения: замените все отсутствующие значения в атрибутах той же константой.
  • Используйте значение атрибута для заполнения отсутствующего значения

Шумные данные: шум - это случайная ошибка или выброс в атрибуте. Данные можно сгладить, используя следующие методы:

  • Методы группирования: методы группирования сглаживают значение отсортированных данных, обращаясь к соседству или значениям вокруг него.
  • Кластеризация: выбросы могут быть обнаружены с помощью кластеризации, когда похожие значения объединяются в группы или кластеры.
  • Регрессия: данные могут быть сглажены путем подгонки данных к функции. Данные, которые отклоняются от функции с большими значениями, являются выбросами.

Интеграция данных

Интеграция данных - это объединение данных из нескольких источников в единое хранилище данных. Эти источники могут включать несколько баз данных. При интеграции данных возникает несколько проблем, таких как совпадение сущностей данных и избыточность.

Преобразование данных

Преобразование данных включает преобразование данных в формы, подходящие для алгоритмов машинного обучения. Преобразование данных включает следующие методы:

  • Нормализация: масштабирование данных до определенного диапазона, например от 0 до 1.
  • Сглаживание: устранение шума с помощью объединения, кластеризации и регрессии.
  • Агрегация: к данным применяются операции сводки или агрегирования.
  • Обобщение: данные низкого уровня заменяются данными более высокого уровня.

Сжатие данных

Обработка и анализ огромного количества данных требует очень много времени. Мы сокращаем данные без ущерба для целостности исходных данных. Некоторые методы сокращения данных:

  • Уменьшение размера: релевантные, слабо релевантные или избыточные атрибуты или измерения могут быть обнаружены и удалены.
  • Сжатие данных: E механизмы кодирования используются для уменьшения размера набора данных. Методы, используемые для сжатия данных, - это вейвлет-преобразование и анализ главных компонентов.
  • Снижение численности. Данные заменяются или оцениваются альтернативами, такими как регрессия или выборка.