Что такое темные данные и почему организации должны начать их изучать?

Когда я разговариваю с разными старшими руководителями, я получаю много недоуменных лиц, когда упоминаю «темные данные». Вот когда возникают некоторые из этих вопросов:

  • Как мы можем получить значимое значение из наших данных?
  • Как мы используем наши данные для предоставления различных аналитических и прогнозных идей?
  • Темные данные — это то же самое, что и неструктурированные данные?
  • Как мы используем очищенные данные для предоставления тенденций для более эффективного обслуживания наших клиентов?

Многие люди думают, что получить к нему доступ сложно из-за управления компанией. Они также говорят, что им сложно управлять всеми такими данными как с точки зрения инфраструктуры, так и с точки зрения эксплуатации.
Я всегда отвечаю, что это зависит от того, что вы понимаете под темными данными, поскольку в них много слоев. Вы уже можете получить много ценной информации (например, лучшее профилирование клиентов), связав данные, уже охваченные вашим внутренним управлением. Здесь нет настоящего волшебства, все в пределах возможностей современного машинного обучения и НЛП.

Что такое темные данные?

Темные данные — это тип неиспользованных, неструктурированных и немаркированных данных, которые находятся в репозиториях данных и которые никоим образом не используются для получения информации или для принятия решений. В некоторых случаях организация может даже не знать, что данные собираются. Темные данные также известны как пыльные данные.

Темные данные могут содержать важную информацию о субъекте, будь то физическое лицо или организация. На самом деле около 80% собираемых данных на типичном предприятии скрыты — в основном потому, что они либо частично структурированы, либо полностью неструктурированы. Мы говорим о данных, найденных в текстовых документах, изображениях, аудио, видео, мгновенных сообщениях в Slack и электронных письмах, среди других типов файлов. Если подумать, работники-люди ежедневно полагаются на такие данные для выполнения своей работы, а их эффективность зависит от способности обнаруживать и обрабатывать связи между фрагментированной информацией.

С внутриорганизационной точки зрения эта информация может использоваться для управления — хранения информации, обмена ноу-хау, адаптации сотрудников, соблюдения нормативных требований, обнаружения мошенничества и предотвращения угроз. С точки зрения внешней организации, большая часть информации, содержащейся в скрытых данных, может быть использована клиентом 360 для усиления процесса взаимодействия.

Для большинства предприятий понимание огромного количества скрытых данных может оказаться непосильной задачей. Как правило, предприятия используют такие отговорки, как проблемы с законом, устаревшие рабочие процессы или затраты на архитектуру, объясняя, почему они не хотят максимизировать свои темные данные, но они не должны быть слоном в комнате. Все, что ему нужно, — это прежде всего данные, ведущие к аналитике и, наконец, формирующемуся технологическому типу мышления.

Помочь людям увидеть значение между различными точками данных

Организации хранят закрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1% своих данных. Часто они хранятся для соблюдения нормативных требований и ведения учета. Некоторые организации считают, что темные данные могут быть полезны им в будущем, когда они приобретут более совершенные технологии бизнес-аналитики для обработки информации. Поскольку хранение становится все более и более дешевым, хранить данные несложно.

По данным Computer Weekly, 60 % организаций считают, что их собственные возможности по составлению отчетов бизнес-аналитики «неадекватны», а 65 % говорят, что у них «несколько неорганизованные подходы к управлению контентом».

Как найти темные данные?

Поиск темных данных в вашей организации — самая большая проблема. Как найти что-то, если не знаешь, что оно существует? Это можно сравнить с поиском иголки в стоге сена. По крайней мере, здесь вы знаете, что ищете. Попытка найти темные данные больше похожа на исследование подземной пещеры в полной темноте. Может быть, пещера пуста, может быть, там новый вид организмов. Вы можете исследовать окрестности целыми днями, ничего не найдя. Даже если вы столкнетесь с чем-то, вы не будете знать, что это такое. Обычные инструменты анализа данных не будут работать. Большинство инструментов аналитики и бизнес-аналитики полагаются на структурированные данные. Как и реляционные базы данных.

Поскольку многие темные данные неструктурированы, информация представлена ​​в форматах, которые может быть трудно классифицировать, прочитать компьютером и, следовательно, проанализировать. Часто причина того, что бизнес не анализирует свои темные данные, связана с объемом ресурсов, которые потребуются, и сложностью анализа этих данных.

Таким образом, вы попадаете в ситуации, когда работники умственного труда, способные на гораздо большее, вынуждены тратить свое драгоценное время на извлечение ключевой информации из полуструктурированных и неструктурированных файлов данных — обычно блокируя эту информацию в своей голове и для этого конкретного процесса. Эта информация адекватна настолько, насколько эффективно человек связывает такие разрозненные фрагменты информации.

Чтобы иметь возможность эффективно извлекать информационную ценность из данных, которыми вы владеете, вам нужна платформа, которая поддерживает все форматы данных вашей организации, понимает ваши запросы на естественном языке и дает вам ответы.

Почему и как организации должны использовать темные данные

Организации должны понимать, что любые данные, оставшиеся неисследованными, — это упущенная возможность и потенциальная угроза безопасности. В зависимости от намерений организации и инвестиционного аппетита теневые данные могут либо использоваться для создания дополнительных возможностей, либо оставаться в неведении. Это, однако, требует от организаций принятия стратегических решений и инвестиций в защиту, хранение и добычу информации.

Идеальная технология для поиска темных данных построена на использовании неструктурированных данных. Но это еще не все. Вам нужна платформа, которая автоматически определяет тип данных, которые она просматривает, принимает их и подготавливает к анализу. Языки запросов, такие как SQL, требуют, чтобы вы структурировали свои запросы на основе структуры данных, чего вы не можете сделать, если не знаете структуру данных. SOLR довольно хорошо помогает вам индексировать и структурировать ваши текстовые данные, но это только часть решения.

Вам нужна технология, позволяющая войти в любую ситуацию и сразу начать задавать вопросы на естественном языке. Это поможет вам связать документы и данные из разных разрозненных источников, чтобы получить лучшее представление о проблеме. Это не имеет значения, структурированы ваши данные или неструктурированы, и они созданы для того, чтобы служить платформой для расследований.

Каждая цель требует различных технологий для предоставления информации и понимания. Ваши данные могут многое вам рассказать. Все виды вещей. С правильной технологией все, что вам нужно сделать, — это придумать, о чем ее спросить.