Предварительная обработка данных в машинном обучении и науке о данных

Предварительная обработка данных - это основной шаг в процессе машинного обучения. Этим часто пренебрегают, но это важный шаг. Необработанные данные очень подвержены шуму, отсутствию данных и ненадежным данным. Предварительная обработка данных включает в себя очистку, нормализацию, преобразование, извлечение и выбор признаков и т. Д. Качество данных влияет на результат работы алгоритма.

Метод предварительной обработки данных включает:

Очистка данных
Интеграция данных
Преобразование данных
Сжатие данных

Очистка данных

Данные могут быть неполными (отсутствуют значения атрибутов), зашумленными (содержат ошибки или выбросы) и противоречивыми.

Отсутствующие значения: данные могут содержать некоторые отсутствующие или нулевые значения. Эти недостающие значения можно заполнить для атрибута различными способами:

Игнорировать кортеж: Если метка класса отсутствует. Этот метод не очень эффективен, если кортеж не содержит нескольких атрибутов с пропущенными значениями.
Заполните отсутствующее значение вручную
Используйте глобальную константу для заполнения отсутствующего значения: замените все отсутствующие значения в атрибутах той же константой.
Используйте значение атрибута для заполнения отсутствующего значения

Шумные данные: шум - это случайная ошибка или выброс в атрибуте. Данные можно сгладить, используя следующие методы:

Методы группирования: методы группирования сглаживают значение отсортированных данных, обращаясь к соседству или значениям вокруг него.
Кластеризация: выбросы могут быть обнаружены с помощью кластеризации, когда похожие значения объединяются в группы или кластеры.
Регрессия: данные могут быть сглажены путем подгонки данных к функции. Данные, которые отклоняются от функции с большими значениями, являются выбросами.

Интеграция данных

Интеграция данных - это объединение данных из нескольких источников в единое хранилище данных. Эти источники могут включать несколько баз данных. При интеграции данных возникает несколько проблем, таких как совпадение сущностей данных и избыточность.

Преобразование данных

Преобразование данных включает преобразование данных в формы, подходящие для алгоритмов машинного обучения. Преобразование данных включает следующие методы:

Нормализация: масштабирование данных до определенного диапазона, например от 0 до 1.
Сглаживание: устранение шума с помощью объединения, кластеризации и регрессии.
Агрегация: к данным применяются операции сводки или агрегирования.
Обобщение: данные низкого уровня заменяются данными более высокого уровня.

Сжатие данных

Обработка и анализ огромного количества данных требует очень много времени. Мы сокращаем данные без ущерба для целостности исходных данных. Некоторые методы сокращения данных:

Уменьшение размера: релевантные, слабо релевантные или избыточные атрибуты или измерения могут быть обнаружены и удалены.
Сжатие данных: E механизмы кодирования используются для уменьшения размера набора данных. Методы, используемые для сжатия данных, - это вейвлет-преобразование и анализ главных компонентов.
Снижение численности. Данные заменяются или оцениваются альтернативами, такими как регрессия или выборка.

Предварительная обработка данных в машинном обучении и науке о данных

Очистка данных

Интеграция данных

Преобразование данных

Сжатие данных

Вопросы по теме