Предварительная обработка данных - это основной шаг в процессе машинного обучения. Этим часто пренебрегают, но это важный шаг. Необработанные данные очень подвержены шуму, отсутствию данных и ненадежным данным. Предварительная обработка данных включает в себя очистку, нормализацию, преобразование, извлечение и выбор признаков и т. Д. Качество данных влияет на результат работы алгоритма.
Метод предварительной обработки данных включает:
- Очистка данных
- Интеграция данных
- Преобразование данных
- Сжатие данных
Очистка данных
Данные могут быть неполными (отсутствуют значения атрибутов), зашумленными (содержат ошибки или выбросы) и противоречивыми.
Отсутствующие значения: данные могут содержать некоторые отсутствующие или нулевые значения. Эти недостающие значения можно заполнить для атрибута различными способами:
- Игнорировать кортеж: Если метка класса отсутствует. Этот метод не очень эффективен, если кортеж не содержит нескольких атрибутов с пропущенными значениями.
- Заполните отсутствующее значение вручную
- Используйте глобальную константу для заполнения отсутствующего значения: замените все отсутствующие значения в атрибутах той же константой.
- Используйте значение атрибута для заполнения отсутствующего значения
Шумные данные: шум - это случайная ошибка или выброс в атрибуте. Данные можно сгладить, используя следующие методы:
- Методы группирования: методы группирования сглаживают значение отсортированных данных, обращаясь к соседству или значениям вокруг него.
- Кластеризация: выбросы могут быть обнаружены с помощью кластеризации, когда похожие значения объединяются в группы или кластеры.
- Регрессия: данные могут быть сглажены путем подгонки данных к функции. Данные, которые отклоняются от функции с большими значениями, являются выбросами.
Интеграция данных
Интеграция данных - это объединение данных из нескольких источников в единое хранилище данных. Эти источники могут включать несколько баз данных. При интеграции данных возникает несколько проблем, таких как совпадение сущностей данных и избыточность.
Преобразование данных
Преобразование данных включает преобразование данных в формы, подходящие для алгоритмов машинного обучения. Преобразование данных включает следующие методы:
- Нормализация: масштабирование данных до определенного диапазона, например от 0 до 1.
- Сглаживание: устранение шума с помощью объединения, кластеризации и регрессии.
- Агрегация: к данным применяются операции сводки или агрегирования.
- Обобщение: данные низкого уровня заменяются данными более высокого уровня.
Сжатие данных
Обработка и анализ огромного количества данных требует очень много времени. Мы сокращаем данные без ущерба для целостности исходных данных. Некоторые методы сокращения данных:
- Уменьшение размера: релевантные, слабо релевантные или избыточные атрибуты или измерения могут быть обнаружены и удалены.
- Сжатие данных: E механизмы кодирования используются для уменьшения размера набора данных. Методы, используемые для сжатия данных, - это вейвлет-преобразование и анализ главных компонентов.
- Снижение численности. Данные заменяются или оцениваются альтернативами, такими как регрессия или выборка.