Как улучшить качество данных, чтобы построить более точные модели ИИ? Узнайте о шагах предварительной обработки данных, которые необходимо предпринять, чтобы преобразовать необработанные данные в обработанную форму.

Написано Pragati Baheti и первоначально опубликовано в блоге V7 (Простое руководство по предварительной обработке данных в машинном обучении)

Данные — это не что иное, как актив в современном мире. Но -

Можем ли мы действительно использовать эти обильные данные в необработанном виде для обучения алгоритмов машинного обучения?

Ну, не совсем так.

Данные в реальном мире довольно грязные и искажены несоответствиями, шумом, неполной информацией и пропущенными значениями. Он агрегируется из разнообразных источников с использованием методов интеллектуального анализа данных и хранилищ.

В машинном обучении действует эмпирическое правило: чем больше у нас данных, тем лучше модели мы можем обучить.

В этой статье мы обсудим все шаги предварительной обработки данных, которые необходимо выполнить для преобразования необработанных данных в обработанную форму.

💡Мы всегда ищем талантливых технических писателей. Хотели бы вы внести свой вклад в блог V7? Отправьте свое портфолио на [email protected]

Что такое предварительная обработка данных?

Предварительная обработка данных включает в себя шаги, которые необходимо выполнить для преобразования или кодирования данных, чтобы их можно было легко анализировать на машине.

Основная цель модели быть точной и точной в прогнозах заключается в том, чтобы алгоритм мог легко интерпретировать особенности данных.

Почему важна предварительная обработка данных?

Большинство реальных наборов данных для машинного обучения могут отсутствовать, быть противоречивыми и зашумленными из-за их неоднородного происхождения.

Применение алгоритмов интеллектуального анализа данных к этим зашумленным данным не даст качественных результатов, поскольку они не смогут эффективно идентифицировать закономерности. Поэтому обработка данных важна для улучшения общего качества данных.

  • Повторяющиеся или отсутствующие значения могут привести к неправильному представлению общей статистики данных.
  • Выбросы и несогласованные точки данных часто имеют тенденцию мешать общему обучению модели, что приводит к ложным прогнозам.

Решения по качеству должны основываться на качественных данных. Предварительная обработка данных важна для получения этих качественных данных, без которых это был бы просто сценарий Мусор на входе, мусор на выходе.

💡Совет для профессионалов: ознакомьтесь с Вводным руководством по качественным обучающим данным для машинного обучения, чтобы узнать больше.

Особенности машинного обучения

Отдельные независимые переменные, которые действуют как входные данные в нашей модели машинного обучения, называются функциями. Их можно рассматривать как представления или атрибуты, которые описывают данные и помогают моделям предсказывать классы/метки.

Например, функции в структурированном наборе данных, таком как в формате CSV, относятся к каждому столбцу, представляющему измеримую часть данных, которые можно использовать для анализа: имя, возраст, пол, стоимость проезда и т. д.

4 этапа предварительной обработки данных

Теперь давайте более подробно обсудим четыре основных этапа предварительной обработки данных.

Очистка данных

Очистка данных в частности выполняется как часть предварительной обработки данных для очистки данных путем заполнения пропущенных значений, сглаживания зашумленных данных, устранения несогласованности и удаления выбросов.

1. Отсутствующие значения

Вот несколько способов решить эту проблему:

  • Игнорировать эти кортежи

Этот метод следует рассматривать, когда набор данных огромен и в кортеже присутствует множество пропущенных значений.

  • Вставьте пропущенные значения

Для этого существует множество методов, таких как заполнение значений вручную, прогнозирование отсутствующих значений с использованием метода регрессии или численные методы, такие как среднее значение атрибута.

2. Зашумленные данные

Он включает удаление случайной ошибки или дисперсии измеряемой переменной. Это можно сделать с помощью следующих методик:

  • Биннинг

Это метод, который работает с отсортированными значениями данных, чтобы сгладить любой присутствующий в них шум. Данные делятся на ячейки одинакового размера, и каждая ячейка/сегмент обрабатывается независимо. Все данные в сегменте могут быть заменены его средними, медианными или граничными значениями.

  • Регрессия

Этот метод интеллектуального анализа данных обычно используется для прогнозирования. Это помогает сгладить шум, подгоняя все точки данных к функции регрессии. Уравнение линейной регрессии используется, если имеется только один независимый атрибут; иначе используются полиномиальные уравнения.

  • Кластеризация

Создание групп/кластеров из данных, имеющих схожие значения. Значения, которые не принадлежат кластеру, могут рассматриваться как зашумленные данные и могут быть удалены.

3. Удаление выбросов

Методы кластеризации группируют похожие точки данных. Кортежи, лежащие за пределами кластера, являются выбросами/несогласованными данными.

Интеграция данных

Интеграция данных — это один из этапов предварительной обработки данных, который используется для объединения данных, имеющихся в нескольких источниках, в одно более крупное хранилище данных, например хранилище данных.

Интеграция данных необходима, особенно когда мы стремимся решить реальный сценарий, такой как обнаружение наличия узелков на изображениях компьютерной томографии. Единственный вариант — интегрировать изображения из нескольких медицинских узлов, чтобы сформировать большую базу данных.

💡 Совет для профессионалов. Ищете качественные наборы медицинских данных? Ознакомьтесь с 21+ лучших медицинских наборов данных для компьютерного зрения.

Мы можем столкнуться с некоторыми проблемами при принятии интеграции данных в качестве одного из шагов предварительной обработки данных:

  • Интеграция схемы и сопоставление объектов: данные могут быть представлены в разных форматах и ​​атрибутах, что может вызвать трудности при интеграции данных.
  • Удаление избыточных атрибутов из всех источников данных.
  • Обнаружение и разрешение конфликтов значений данных.

Преобразование данных

После очистки данных нам необходимо объединить данные о качестве в альтернативные формы, изменив значение, структуру или формат данных, используя приведенные ниже стратегии преобразования данных.

Обобщение

Низкоуровневые или детализированные данные, которые мы преобразовали в высокоуровневую информацию с помощью иерархии концепций. Мы можем преобразовать базовые данные в адресе, такие как город, в информацию более высокого уровня, такую ​​как страна.

Нормализация

Это самый важный широко используемый метод преобразования данных. Числовые атрибуты масштабируются вверх или вниз, чтобы соответствовать заданному диапазону. В этом подходе мы ограничиваем наш атрибут данных конкретным контейнером, чтобы установить корреляцию между различными точками данных. Нормализация может быть выполнена несколькими способами, которые выделены здесь:

  • Мин-макс нормализация
  • Нормализация Z-оценки
  • Нормализация десятичного масштабирования

Выбор атрибута

Новые свойства данных создаются из существующих атрибутов, чтобы помочь в процессе интеллектуального анализа данных. Например, дату рождения, атрибут данных можно преобразовать в другое свойство, такое как is_senior_citizen для каждого кортежа, что напрямую повлияет на прогнозирование заболеваний или шансов на выживание и т. д.

Агрегация

Это метод хранения и представления данных в сводном формате. Например, данные о продажах могут быть агрегированы и преобразованы для отображения в формате месяца и года.

Сжатие данных

Размер набора данных в хранилище данных может быть слишком большим, чтобы его можно было обработать с помощью алгоритмов анализа данных и интеллектуального анализа данных.

Одним из возможных решений является получение сокращенного представления набора данных, которое намного меньше по объему, но дает такое же качество аналитических результатов.

Вот пошаговое руководство по различным стратегиям сокращения данных.

Агрегация куба данных

Это способ сокращения данных, при котором собранные данные представляются в сводной форме.

Снижение размерности

Методы уменьшения размерности используются для извлечения признаков. Размерность набора данных относится к атрибутам или отдельным функциям данных. Этот метод направлен на уменьшение количества избыточных функций, которые мы учитываем в алгоритмах машинного обучения. Уменьшение размерности может быть выполнено с использованием таких методов, как анализ основных компонентов и т. Д.

Сжатие данных

Используя технологии кодирования, можно значительно уменьшить размер данных. Но сжатие данных может быть как с потерями, так и без потерь. Если исходные данные могут быть получены после реконструкции из сжатых данных, это называется сокращением без потерь; в противном случае это называется сокращением с потерями.

Дискретность

Дискретизация данных используется для разделения признаков непрерывного характера на данные с интервалами. Это делается потому, что непрерывные признаки, как правило, имеют меньшую вероятность корреляции с целевой переменной. Таким образом, может быть сложнее интерпретировать результаты. После дискретизации переменной можно интерпретировать группы, соответствующие цели. Например, возраст атрибута можно разбить на ячейки, такие как до 18, 18–44, 44–60 и выше 60 лет.

Уменьшение численности

Данные могут быть представлены в виде модели или уравнения, такого как модель регрессии. Это избавило бы от необходимости хранить огромные наборы данных вместо модели.

Выбор подмножества атрибутов

Очень важно быть конкретным в выборе атрибутов. В противном случае это может привести к многомерным данным, которые трудно обучить из-за проблем с недообучением/переоснащением. Следует учитывать только те атрибуты, которые повышают ценность обучения модели, а остальные можно отбросить.

Оценка качества данных

Оценка качества данных включает в себя статистические подходы, которым необходимо следовать, чтобы гарантировать отсутствие проблем с данными. Данные должны использоваться для операций, управления клиентами, маркетингового анализа и принятия решений, поэтому они должны быть высокого качества.

Основные компоненты оценки качества данных включают:

  1. Полнота без пропущенных значений атрибутов
  2. Точность и достоверность информации
  3. Последовательность во всех функциях
  4. Поддерживать достоверность данных
  5. Не содержит избыточности

Процесс обеспечения качества данных включает в себя три основных действия.

  1. Профилирование данных. Оно включает изучение данных для выявления проблем с качеством данных. После того, как анализ проблем выполнен, данные необходимо обобщить в соответствии с отсутствием дубликатов, пустых значений и т. д.
  2. Очистка данных. Сюда входит устранение проблем с данными.
  3. Мониторинг данных. включает в себя поддержание данных в чистоте и постоянную проверку того, удовлетворяются ли данные бизнес-потребностям.

💡 Совет для профессионалов: ознакомьтесь с нашим Учебным пособием по аннотации данных, чтобы узнать больше о маркировке данных.

Предварительная обработка данных: лучшие практики

Вот краткий обзор всего, что мы узнали о предварительной обработке данных:

  • Первым шагом в предварительной обработке данных является понимание ваших данных. Просто просмотр вашего набора данных может дать вам интуитивное представление о том, на чем вам нужно сосредоточиться.
  • Используйте статистические методы или готовые библиотеки, которые помогут вам визуализировать набор данных и дать четкое представление о том, как ваши данные выглядят с точки зрения распределения классов.
  • Суммируйте свои данные с точки зрения количества дубликатов, пропущенных значений и выбросов, присутствующих в данных.
  • Отбросьте поля, которые, по вашему мнению, не используются для моделирования или тесно связаны с другими атрибутами. Уменьшение размерности — один из очень важных аспектов предварительной обработки данных.
  • Проведите некоторую разработку функций и выясните, какие атрибуты больше всего способствуют обучению модели.