Почему качество данных похоже на чистку зубов: это скучно, но пренебрежение этим может быть болезненным!

Низкое качество данных может принимать разные формы: от неполных или отсутствующих данных до ошибок и несоответствий в самих данных. Работа с неточными или неполными данными подобна чистке зубов шоколадной зубной пастой; Сначала это может быть хорошо, но позже вы обязательно столкнетесь с кариесом! Независимо от того, насколько сложны ваши алгоритмы или насколько элегантны ваши визуализации, полученные вами результаты будут ненадежными и потенциально могут ввести в заблуждение. Грубо говоря, в всыпать, в мусор выкинуть.

«ИИ у дантиста», сгенерированный Dall-E2.

Данные являются основой науки о данных, и их качество может оказать существенное влияние на эффективность результатов, полученных с помощью модели машинного обучения и анализа данных. Однако забота о качестве данных — это не гламурная или захватывающая задача, а скорее сложная задача, требующая внимания, терпения и внимания к долгосрочным потребностям. Это совместный процесс между командами и часто между отделами.

В этом сообщении блога мы обсудим несколько примеров того, насколько важно качество данных, и приведем несколько примеров низкого качества данных, уделив особое внимание его потенциальным последствиям.

1. Неполные данные.

Одной из наиболее распространенных проблем с качеством данных является неполная информация. Например, если мы хотим предсказать изменение доступных способов оплаты для наших продавцов, нам потребуются данные, которые включают не только то, какие способы оплаты активны в настоящее время, но и то, как они изменились с течением времени. Даже если продавцу будут даны рекомендации по новым способам оплаты, мы хотели бы отслеживать эти данные. Если собираются только активные способы оплаты, анализ может стать необъективным, что приведет к неправильным действиям.

Возвращаясь к метафоре наших зубов; Предположим, мы изучаем влияние на диету и зубы. К нам обращаются пациенты, у которых плохие зубы. В этот момент мы собираем информацию об их образе жизни и питании. В этой ситуации мы упускаем что-то важное, мы упускаем информацию о том, что такое здоровое питание и как можно количественно оценить здоровые зубы. Подводя итог, важно учитывать как положительные, так и отрицательные ситуации при определении того, как следует собирать данные.

2. Несогласованные данные.

Несогласованные данные относятся к неоднородным данным из разных источников или процессов. Это может произойти при сборе данных из нескольких источников, комбинировании автоматического и ручного ввода или изменении методов сбора данных с течением времени. Хотя это обычное явление, важно учитывать его влияние на анализ данных.

Например, процесс закрытия учетной записи может документировать причины как «через информационную панель», «запрос продавца: электронная почта/звонок/лично», «закрытие учетной записи продавца» и т. д. Хотя все указывает на закрытие по инициативе продавца, непоследовательное форматирование создает проблемы в определение и понимание этих данных. Это становится еще более серьезной проблемой, когда по каждой причине отсутствует документация, что делает возможным существование нескольких интерпретаций причины. Когда это возможно, важно четко определить и задокументировать. Если вносятся существенные изменения, возможно, стоит подумать о создании отдельного столбца или процесса, который собирает и сохраняет эти данные, чтобы избежать несогласованности.

3. Переписывая историю

Процессы, которые изменяют исторические данные, могут иметь непредвиденные последствия, которые сложно идентифицировать. Они вызывают тихие, но серьезные последствия. Рассмотрим бухгалтерскую книгу, которая отслеживает счета продавцов в торговых точках вместе с их балансами. Иногда историческая информация об этой книге может быть изменена из-за события списания для устранения старых счетов с отрицательным балансом. В таких случаях положительные балансы добавляются к счетам, возвращая их балансы к 0. Если не сделать это тщательно, этот процесс может переписать прошлое, создавая проблемы для понимания того, почему у продавца был отрицательный баланс, и потенциально пропуская ценную информацию, которая может быть использована для предотвращения мошенничества. .

4. Отсутствие документации

Важно учитывать, что означают данные. Чтобы данные были полезными, они должны сопровождаться документацией. Каждое поле должно иметь описание с подробным описанием его назначения и значения. Без этой информации становится сложно ее использовать.

Представьте, что вы работаете с большой базой данных клиентов, которая содержит различные столбцы, такие как «имя», «адрес электронной почты», «возраст» и «история покупок». Понимание определения каждого столбца имеет решающее значение для точного анализа. Колонка «возраст» представлена в годах или месяцах? Что это значит, когда «возраст» отрицателен, равен 0 или отсутствует? Записывается ли столбец «История покупок» как отдельные транзакции или агрегированные данные? Без ясности этих определений любые выводы, сделанные на основе данных, могут ввести в заблуждение или быть неверными.

Точно так же понимание того, как наборы таблиц взаимодействуют или связаны друг с другом на основе их идентификаторов, жизненно важно для интеграции и анализа данных. Допустим, у вас есть таблица клиентов и таблица заказов, каждая из которых имеет столбец с уникальным идентификатором под названием «customer_id». Зная взаимосвязь между этими таблицами, вы можете соединить их в столбце customer_id, чтобы получить ценную информацию, такую как анализ покупательского поведения на основе демографических данных клиентов или выявление самых лояльных клиентов. Но если этому столбцу присвоено имя «id», он может указывать идентификатор для другой системы, которая также использует этот термин. Когда это возможно, будьте точны, когда дело доходит до документирования и описания данных.

Хорошо документированные данные позволяют независимо и асинхронно использовать данные. Без него ожидайте более длительных совещаний, большего количества ошибок и сюрпризов!

Качество данных как долгосрочный процесс

В некоторых ситуациях требуются годы для сбора высококачественных данных, когда речь идет о мошенничестве, оттоке клиентов и других редких событиях. Например, из каждых 100 наблюдаемых транзакций мы можем ожидать, что менее 1% будет мошенничеством. Следовательно, требуются годы, чтобы получить хорошее представление о мошенничестве в этом контексте. Поэтому важно планировать, чтобы помнить о долгосрочной картине, думая о качестве данных.

Короче говоря, качество данных является важной задачей для науки о данных, анализа и принятия обоснованных бизнес-решений на основе фактических данных. Неполные и противоречивые данные — это лишь несколько примеров низкого качества данных. Хотя работа по сохранению высококачественных данных не так привлекательна, как искусственный интеллект и большие языковые сети, ее последствия реальны. Алгоритмы машинного обучения являются мощными и способны быстро усваивать большой объем информации. Но все это идет впустую, если сами данные не очень хорошего качества.

Таким образом, точно так же, как вы не пропустите чистку зубов, даже если это не самая увлекательная задача, вы не должны пренебрегать качеством данных, если хотите добиться точных и надежных результатов в своих проектах по науке о данных. Это может быть не гламурно, но это необходимо. Управление данными и поддержание их чистоты в течение длительного периода времени является ключевым элементом для создания ценности.

Что ваша команда думает о качестве данных?

Почему качество данных похоже на чистку зубов: это скучно, но пренебрежение этим может быть болезненным!

Качество данных как долгосрочный процесс

Вопросы по теме