Google Cloud Dataprep - это интеллектуальная служба данных на платформе Google Cloud Platform для изучения, очистки и подготовки структурированных и неструктурированных данных.

Перед подготовкой данных с помощью Dataprep важно знать 5 принципов.

1. Создайте базовый набор данных перед профилированием исходных данных

Прежде чем приступить к очистке набора данных, полезно создать виртуальный профиль исходных данных. Сначала создайте минимальный рецепт для набора данных после того, как вы загрузили его на страницу Transformer. Затем нажмите Выполнить задание, чтобы создать профиль данных, который можно использовать в качестве базового набора данных для проверки и отладки источника обнаруженных вами проблем с данными.

2. Нормализовать данные перед применением дедупликационного преобразования.

Удалите идентичные строки из набора данных после того, как проверка уникальности является обычным шагом при подготовке данных. Google Cloud Dataprep обеспечивает дедупликацию единого преобразования, которое может удалить идентичные строки из набора данных.

Есть 2 ограничения:

  • Это преобразование чувствительно к регистру. Таким образом, если столбец имеет значения Darren и DARREN, строки, содержащие эти значения, не считаются дубликатами и не могут быть удалены с помощью этого преобразования.
  • Пробелы, а также начало и конец значений не игнорируются.

Перед применением дедупликационного преобразования необходимо нормализовать данные. Например, вы можете использовать функцию LOWER, чтобы сделать регистр каждой записи в столбце согласованным, а затем вызвать функцию trim, чтобы удалить начальные и конечные пробелы.

3. Присоединяйтесь раньше, а присоединяйтесь позже.

Вы можете дополнить свои данные набором данных Присоединиться или Объединить из нескольких источников вместе. Операции соединения следует выполнять в начале вашего рецепта, чтобы снизить вероятность того, что изменения в ваших ключах соединения повлияют на результаты ваших операций соединения.

Операции по объединению следует выполнять позже в рецепте. Выполняя их позже в процессе, вы минимизируете вероятность изменений в операции объединения, включая обновление набора данных, влияющих на рецепт и выходные данные.

4. Используйте статистическую информацию для оценки полученных данных.

После того, как вы завершили свой рецепт и запустили задание, вы можете открыть исходные данные и профиль, который вы создали для исходных данных, на отдельных вкладках браузера, чтобы оценить, насколько согласованными и полными остаются ваши данные от начала до конца процесса согласования.

Вместо того, чтобы сравнивать данные построчно, используйте статистическую информацию в сгенерированном профиле для сравнения со статистикой, полученной из источника, чтобы вы могли определить, внесли ли ваши изменения нежелательные изменения в эти значения.

5. Сохраняйте записи рецептов после профилирования исходных данных.

Для ведения учета нажмите Просмотреть рецепт, чтобы скопировать и вставить рецепт, использованный для создания профиля. Вы можете Загрузить рецепт в текстовый файл.

Это 5 принципов, которые важно знать, прежде чем вы начнете работать с наборами данных с помощью Google Cloud Dataprep. Если у вас есть какие-либо вопросы о создании конвейера данных или обучении моделей машинного обучения в облаке, не стесняйтесь оставить мне сообщение. Спасибо за прочтение.

Продолжить 🤖:

Быстрая демонстрация нашего чат-бота официантки Лилис, которая работает в кофейне: что она может / не может?

Следите за чат-ботом Лилис в LinkedIn, чтобы следить за обновлениями в будущем.