Как объяснить науку о данных простым смертным

Что понимают бизнес-команды, когда вы говорите на их языке

Моя работа направляет меня через несколько областей, специфичных для предметной области, в которых аудитория уже имеет предвзятое представление о «науке о данных». Если этот флажок не установлен, это может привести к катастрофе.

Абстрактные диаграммы - мощный инструмент, когда они используются для общения и создания общего понимания. Я всегда ищу белую доску, чтобы сделать быстрый набросок ключевых терминов и взаимоотношений, которые укрепляют понимание аудитории таким образом, чтобы до нее доходило единое сообщение.

Шесть простых форм, используемых в последовательном порядке, представляют собой элегантную основу для согласования команд с общей ментальной моделью, особенно когда члены команды происходят из разных частей организации. Приведенный ниже сценарий представляет собой сокращенную версию повествования, которое я использую, чтобы рассказать бизнес-командам историю науки о данных. Надеюсь, вам поможет такой подход. Это моя визуальная опора для передачи сложности науки о данных с помощью визуальной простоты.

Скрипт

Добро пожаловать на стартовую встречу по науке о данных. Первое, что я хочу сделать, это предложить вам последовательность шагов, которые отражают то, что мы делаем как специалисты по данным. Пожалуйста, задавайте вопросы по ходу дела.

Шаг 1. Определите возможности для бизнеса

Первое, что мы делаем, как специалисты по данным, - это выясняем, что находится в игре, а что - нет. Мы используем круг, а не треугольник или квадрат, потому что эта геометрия упростит изменение нашей топологии в процессе совместной работы над проектом по науке о данных.

Шаг 2. Сгруппируйте экосистему ключевых заинтересованных сторон по шести категориям

Второй шаг, который мы делаем, как специалисты по обработке данных, - это маркировать заинтересованные стороны и распределять их по шести общим категориям. Категории определены таким образом, чтобы любой проект по науке о данных можно было организовать и охватить всех участников экосистемы.

Ярлыки кластера: Компания, Клиент, Партнер на стороне предложения, Партнеры на стороне спроса, Конкуренты и Сообщество. Например, внутренний проект по науке о данных в IBM будет выглядеть так: IBM, клиенты IBM, партнеры по цепочке поставок, партнеры по маркетингу со стороны спроса, конкуренты IBM и более широкое сообщество заинтересованных сторон, связанных с IBM.

Шаг 3. Определите связи между заинтересованными сторонами

На следующем этапе мы начинаем моделировать связи между заинтересованными сторонами, которые находятся в центре внимания этого проекта по науке о данных. Подключения классифицируются с использованием трех общих понятий; символические связи, связи событий и связи физических вещей. Обоснование этих ярлыков берет начало в работе Профессора Барсалу и его теории систем восприятия символов. Думайте о проектах, ориентированных на символы, как о проектах, имеющих дело с чисто цифровыми артефактами, которые представляют собой связи между заинтересованными сторонами. Связи событийного типа - это способ описания человеческих взаимодействий, происходящих во времени и пространстве. Проект по науке о данных, предназначенный для мониторинга и отслеживания трансграничных контрабандистов, является примером данных о событиях, которые мы хотим отслеживать и анализировать. Последний тип связи - это соединения, представленные физическими объектами. Очень реальным примером отслеживания физических вещей являются системы, используемые для отслеживания доставки вещей Amazon, United Parcel Service и Почтовой службой США. Проект по науке о данных, который включает в себя анализ символической информации, информации о событиях и прочего, может создать сложность на ранней стадии проекта, если не учитывать масштаб усилий.

Шаг 4 - Взаимоотношения между заинтересованными сторонами

Модель, которую мы строим, становится все более сложной по мере добавления новых концепций. На этом четвертом шаге мы определяем роли, правила и взаимность людей, которые будут составлять аналитическую модель. Я проделал значительный объем работы в финансовом сообществе. Обнаружение мошенничества - это бизнес-кейс, в котором критически важно заранее установить личности участников и собрать данные, которые представляют роли (взломщик кредитных карт), правила (расположенные в иностранном округе) и взаимность (судебное преследование практически невозможно).

Шаг 5 - Измерения

На этом пятом этапе мы начинаем определять и маркировать входы, процессы и выходы, которые должны быть смоделированы и зафиксированы в анализе. Этот шаг касается данных, данных, данных и других данных. Прекрасный пример того, как связаны данные (входы, процессы и выходы) и измерения, можно понять, если мы сосредоточимся на понимании поведения хакеров в сетях. Киберзащита - одна из таких областей, в которой моделирование отклонений в потоках данных является ключом к прогнозированию злоумышленников на работе в сети.

Шаг 6 - Сравнение

На этом последнем этапе вы забираете домой трофей. До этого момента мы определили заинтересованные стороны, связи, отношения и измерения. У нас есть словарь из 15 ярлыков. Теперь мы добавляем еще шесть ярлыков, которые являются ключом к мышлению эксперта. Мы построили модель графа с узлами и ребрами. Скорее всего, здесь вы вспомните нейронную сеть. Каждый узел и каждое ребро могут быть помечены обозначениями графа. Что нас действительно волнует, так это значения, которые мы определяем для каждого из шести свойств; качество, количество, конфигурация, состав, замещение и вычитание. Эти свойства происходят из математической модели, описанной Теорией информации Клода Шеннона.

Итак, команда, вот она. Простой ориентированный график всех возможных концепций и взаимосвязей, которые мы хотим исследовать в данных. Если я сверну концентрические круги в единый граф, перед нами будет топологическое представление проекта науки о данных. В течение следующих нескольких часов мы еще раз рассмотрим 21 грань модели. Мы определим, какой должна быть наша бизнес-гипотеза, и какие узлы и ребра следует включить в наш проект по науке о данных. Мы видим, что 21 простая бизнес-концепция может создать потенциальную вселенную из 972 возможных комбинаций узлов и ребер (6 x 3 x 3 x 3 x 6). Мы хотим убедиться, что мы выбрали концепции и варианты, которые принесут нам наибольшую отдачу от этого проекта.

Конец сценария

Что только что произошло?

Вы осторожно провели свою бизнес-команду через упражнение по созданию строительных лесов, в котором вы использовали бизнес-термины, чтобы показать, как быстро растет сложность проекта в области науки о данных. Это мой страховой полис, чтобы убедиться, что проект по науке о данных хорошо охарактеризован, имеет поддержку и приверженность всех участников и заинтересованных сторон. Делайте это просто, но не слишком просто. Хаос таится за каждым углом.

Удачи.