Ни одна программа по науке о данных не будет успешной, если не будут решены проблемы с качеством исходных данных. Любой, кто говорит, что их исходные данные не имеют проблем с качеством данных, недостаточно внимательно изучил их, не поговорил с бизнес-пользователями или аналитиками хранилищ данных. Каждая исходная система будет иметь постоянные проблемы с качеством - это долг профессионалов по обработке данных - решить их конструктивным образом.

Многие организации не могут даже определить, в чем заключаются проблемы, потому что это кажется слишком простым упражнением в том, кто, что, когда и где - но это легко, а не просто.

Кто

Чтобы диагностировать проблемы с качеством данных, вам понадобится помощь. Если вы подходите к этой проблеме с точки зрения ИТ, вы не можете полагаться только на ИТ-аналитиков, вам необходимо выслушать всех бизнес-пользователей / нижестоящих пользователей данных, чтобы понять, что они могут делать для преобразования этих данных. во что-то полезное. Если вы являетесь нижестоящим аналитиком / внутренним брокером данных / разработчиком данных гражданина, тогда вам нужно прислушиваться к большему, чем просто опасения тех, кто находится в вашем кругу потребителей данных, вам необходимо принять во внимание некоторые из вышестоящих уязвимостей, которые ОНО может знать.

Чем серьезнее будут проблемы с качеством данных и чем крупнее ваша организация, тем крупнее будут ее подчиненные системы. В любом упражнении с данными вы найдете множество обходных путей. Данные - это место, где сталкиваются бизнес и ИТ, и часто это серьезная проблема, связанная с недопониманием и плохо продуманными коммуникациями.

Первая группа людей, которую вы определите, вероятно, должна быть простой - они будут громче всех рассказывать обо всех информационных болевых точках, с которыми сталкиваются. Соберите этих людей вместе и начните говорить о том, с какими процессами у них возникают проблемы, и что им нужно делать, чтобы их обойти.

Вы не хотите, чтобы эти разговоры приводили вас к дезорганизации. В конечном итоге вы стремитесь обобщить свой опыт в виде простого итогового абзаца, который можно использовать в резюме ваших усилий по управлению данными.

За последний [период времени] проблемы с качеством данных повлияли на точность [тип данных] в [системе], что повлияло на анализ в [бизнес-единицах, на которые влияет качество данных]. Эти проблемы привели к дорогостоящей ручной доработке и недоверию к целостности наших данных, а также к общему снижению производительности и затрат.

Чтобы составить такое простое резюме, вам нужно будет систематически исследовать некоторые вопросы. Их не нужно спрашивать по порядку - но их нужно спрашивать все.

Какие

Сядьте вместе с заинтересованными сторонами в области данных и задайте следующие вопросы:

Каковы ваши симптомы низкого качества данных?

С какими основными рисками вы сталкиваетесь из-за этих проблем?

Какие точки трения болят больше всего?

Думайте об этом больше как о сеансе мозгового штурма, хотя часто вы можете добавить здоровую дозу терапии, потому что эти сеансы часто бывают болезненными. У тех, кто работает с данными изо дня в день, накапливаются эмоции. Часто, когда все заинтересованные стороны сидят в одной комнате (или если у вас есть небольшие межфункциональные подгруппы, ориентированные на данные и малый и средний бизнес, чтобы способствовать целенаправленному содержательному диалогу), их страсть к данным будет обнажена. Это может быть как волнующим, так и трудным делом, и если вы наблюдаете за происходящим, убедитесь, что вы сохраняете сочувствие друг к другу. Сейчас не время для нас, а для нас - проблема с данными.

Когда вы разберетесь с основами «что», вы позже сможете задать этот вопрос.

Какие основные возможности вы видите?

Здесь вы можете провести мозговой штурм для краткосрочных и долгосрочных кросс-функциональных проектов, направленных на решение проблем качества данных.

Когда

Когда и с какой частотой возникают проблемы с качеством данных?

Как долго длятся проблемы с качеством данных?

Эти вопросы, зависящие от времени, помогают выявить проблемы, которые, возможно, были помечены как решенные как «работающие, как задумано», но так и не решены для ваших пользователей. Вы обнаружите, что некоторые проблемы с данными возникают только при обновлении истории, другие возникают один раз в год, а другие являются гораздо более сложными и запутанными. Если вы хотите обобщить влияние проблем с качеством данных на своих руководителей, понимание временных рамок для возможных ошибок будет жизненно важным. Хотя этот шаг часто кажется очевидным, важно, чтобы вы не пропустили его - опять же, может быть удивительно услышать, что некоторые люди испытывают / исправляют в данных, особенно если вы никогда раньше не задавались такими вопросами.

Где

Где хранятся данные?

В чем вы видите проблемы с качеством данных?

Какое количество последующих процессов будет затронуто?

Опять же, более простые вопросы будут одними из самых поучительных. ИТ-руководители были удивлены, узнав, что одно из важнейших хранилищ данных находится в ловушке в Microsoft Access (и было ужасно обнаружить это, потому что обновление программного обеспечения нарушило функциональность системы) или в электронных таблицах Excel. По-прежнему существует множество систем управления основными данными, которые исправляются в Excel и Access за кулисами. Чтобы правильно определить эти и любые ошибки, которые они пытаются исправить (или ошибки, которые они могут привнести!), Важно вернуться к простым вопросам.

Вы часто обнаруживаете, что данные, которые были подготовлены с помощью тщательно спроектированного процесса, заменяются последующими пользователями другой электронной таблицей Excel, которую должен вести чей-то помощник администратора. Будьте готовы к возникновению подобных ситуаций! Помните, не имеет значения, насколько изящным будет ваше решение, если ваш C-Suite все еще заставляет своих администраторов писать для них резюме по электронной почте.

Чтобы понять, какие данные используются для создания, какая информация возвращает нас к простым вопросам, на которые часто нет простых ответов.