Обзор преобразования наборов данных для машинного обучения: методы, проблемы и соображения для специалистов по данным

Данные редко бывают нейтральными, и наборы данных не готовы к использованию прямо с полки. Они требуют предварительной обработки и преобразований, которые отражают точки зрения создателей и пользователей. В этой статье представлен обзор технических деталей подготовки набора данных к использованию, в ходе которого задаются важные вопросы.

Очистка и документирование преобразований предварительной обработки

Предварительная обработка является важной частью построения любой системы с набором данных, поэтому крайне важно документировать и анализировать преобразования предварительной обработки. Очистка данных неизбежна, и каждый цикл повторной обработки данных и кода дает возможность открыть новые перспективы для технических объектов кода/данных. Однако при преобразовании набора данных следует опасаться утерянных значений, новых неправильных представлений или искаженной информации.

Хранилище данных

Поскольку наборы данных выходят за пределы одного файла, они обычно хранятся в базе данных. Набор данных предоставляет описание данных, в то время как база данных указывает, как данные хранятся, как правило, через набор таблиц со столбцами и строками (например, реляционная база данных, такая как SQL) или набор документов с ключами и значениями, как в МонгоДБ.

Тем не менее, важно отметить, что структуры баз данных должны быть адаптированы к хранимым в них данным, поскольку они могут формировать и отражать взгляды проектировщиков баз данных на данные.

Учет недостающих данных

Записи в наборе данных могут иметь вид NaN (не число) или NULL, что может вызвать или не вызвать ошибки, в зависимости от выполненных вычислений. Введенные вручную записи, такие как «?», «ага» или пробелы, могут не иметь контекста, а отсутствующую информацию можно удалить или заменить.

Тем не менее, важно учитывать, что могут означать отсутствующие данные. Фильтрация данных и заполнение данных имеют разные последствия. Отсутствующие данные могут семантически отличаться от данных, которые никогда не собирались. Таким образом, недостающие данные означают то, что не будет или не может быть собрано, или то, что было сочтено недостойным сбора.

Обработка дополнительных данных

Наборы данных могут содержать аномалии, выбросы и дубликаты, которые требуют выявления, корректировки или удаления. Однако даже идеально чистые и аккуратно размеченные данные могут быть зашумлены, если проблема связана с неопределенностью и двусмысленностью.

Определение выбросов, аномалий или дополнительных данных означает определение того, что является «нормальным», неожиданным или отвлекающим, т. е. что является сигналом, а что шумом. Очистка данных и категоризация создают их представления о внешнем и инаковости, которые могут ограничить то, как люди понимаются и могут представлять себя.

Дискретизация данных

Дискретизация или объединение включает группировку экземпляров вместе и может быть полезна, когда исходный уровень детализации не требуется. Например, непрерывные данные, такие как показания температуры, можно переключать в ячейки, сгруппированные через каждые пять или десять градусов. Однако диапазоны данных могут искажать результаты и могут не подходить для всех случаев.

Токенизация или фрагментация данных

Токенизация или фрагментация данных включает в себя разбиение данных на более мелкие единицы. Токены часто представляют собой отдельные слова или предложения, а другие операции с текстом могут включать в себя удаление пунктуации и стоп-слов.

Заключение

Подготовка набора данных к использованию включает в себя различные преобразования и предварительную обработку. Однако данные редко бывают нейтральными, и наборы данных могут быть не готовы к использованию прямо с полки. Поэтому важно понимать технические детали подготовки набора данных к использованию и задавать критические вопросы по пути.

Связаться с автором

Если вам понравилась эта статья и вы хотите оставаться на связи, не стесняйтесь подписаться на меня в Medium и связаться со мной в LinkedIn. Я хотел бы продолжить разговор и услышать ваши мысли на эту тему.

Использованная литература:

https://knowingmachines.org/critical-field-guide