Ценность данных заключается в сценарии использования, а не в платформе.

Хранилище данных, озеро данных или даже сетка данных — все это примеры корпоративных решений для данных. Некоторые управлялись централизованно, другие строили децентрализованно с федеративным управлением, но в конце концов все они предполагали объединить все данные, имеющиеся в вашей компании, и сделать их доступными для всех. Это может быть вашим желаемым конечным результатом, но я утверждаю, что вы никогда не должны начинать с создания платформы, вы должны начинать с малого, извлекая пользу из данных.

Слишком часто я слышал, как компании хотят начать с данных, больших данных, машинного обучения или искусственного интеллекта — используя их как синонимы — потому что это круто или потому что все так делают. Хуже того, я знаю много примеров, кто начал проектировать и строить современную платформу данных или собирать все данные в одном месте. Как и многие ИТ-проекты, это инициализирует длительный и дорогостоящий процесс, который, скорее всего, не оправдает себя до тех пор, пока кто-нибудь не начнет сомневаться в проекте. И даже при переходе к производственной фазе первые несколько вариантов использования никогда не оправдают всех затрат.

Уроки моей неудачи

Я также сделал эту ошибку. Однажды я присоединился к компании — поставщику энергии — когда они внедряли собственные операционные системы. Полный облачный ИТ-ландшафт с открытым исходным кодом. Конечно, должен следовать ландшафт данных, состоящий из среды отчетности и некоторых вариантов использования машинного обучения, чтобы начать с модели оттока.

Через полтора года у нас были данные со всех новых систем, у нас была облачная инфраструктура, планировщик, механизм обработки, модель машинного обучения и поток автоматизации маркетинга. Полтора года спустя, по результатам модели, у нас появились первые постоянные клиенты. Спустя полтора года в первый же месяц мы сэкономили 23 подключения к газу и электричеству. Излишне говорить, что ROI этого варианта использования — это то, чем не стоит гордиться.

Ваш первый вариант использования

Напомню, что этот пост в блоге ориентирован на тех, кто впервые хочет извлечь пользу из данных. Это означает, что в начале вы должны сосредоточиться не на проверке концепции технологии, а на доказательстве ценности варианта использования.

Это означает, что ваш первый вариант использования данных — это не платформа: ваша платформа не приносит ценности, все зависит от того, что вы с ней делаете. Вот почему я утверждаю, что чаще всего вашей основной задачей должно быть не создание платформы данных, а предоставление ценности, но это тема для следующего поста в блоге.

Но как выбрать свой первый вариант использования? Должен ли это быть тот, у которого самая высокая отдача от инвестиций, с самой быстрой отдачей или инвестициями или с самой высокой отдачей в целом. Поскольку вы доказываете ценность для получения полного бай-ина, я советую вам рассмотреть варианты использования с быстрой окупаемостью инвестиций и рядом с этим задать себе вопрос: «Какова минимальная сложность, которую я хочу доказать?»

Вернемся к поставщику энергии. Сразу после модели оттока у нас была статистическая модель — анализ выживания клиентов, — построенная на данных только одной системы, подсчитывающая количество энергии, которое нужно купить. Если бы модель ошиблась всего на 1%, было бы потеряно более половины прибыли. Это должно было быть вариантом использования для начала.

Минимальная сложность

Существует множество книг по Agile-разработке, но один ключевой вывод: «Чем быстрее вы запускаете продукт, чем быстрее вы получаете обратную связь, тем быстрее вы сможете направить свой продукт в правильном направлении». Поэтому я утверждаю, что каждое доказательство концепции или ценности должно «жить». Не в полной готовой к производству настройке, но, по крайней мере, она должна дойти до конечного пользователя. Вот где ценность сидит.

Обращаясь к конечному пользователю, вы можете оценить весь потенциал своего варианта использования. В этот момент вы должны быть уверены, что можете быстро перейти к зрелой, готовой к производству или полностью автоматизированной установке. Это означает, что даже при том, что вы доказали ценность, вы также должны были решить минимальную сложность. Это может касаться технической или алгоритмической сложности, возможности увеличения объема данных или возможности автоматизации процесса.

Снова думая о модели оттока поставщика энергии: самый ценный показатель того, что клиент рассматривает возможность оттока, — это то, посещает ли он страницу с ценами на веб-сайте. Не открывая обсуждения, действительно ли это хорошая идея — хотя это может быть жутко — вы не должны напрямую доказывать, что можете передавать и оценивать эти данные в режиме реального времени. Для этого есть проверенные решения. Вы должны просто убедиться, что эти данные действительно ценны.

Более того, возможно, вам даже не стоит доказывать, что вы можете зафиксировать эти данные. Возможно, в будущем вы сможете заставить клиентов создавать учетные записи на вашем веб-сайте, и вы можете быть уверены, что зафиксируете это событие, но пока это заведет вас слишком далеко. В этом случае вторым лучшим показателем является разница в цене вашего продления. предложение. Вы уже можете подтвердить свою настройку, просто обрабатывая эти типичные данные CRM.

Ваша платформа данных V0.1

Вам никогда не повредит заранее спроектировать желаемую платформу данных. Тем не менее, я могу гарантировать вам, что в быстро меняющемся мире данных вы никогда не создадите то, что задумали, поскольку новые появляющиеся технологии могут оказаться более подходящими. Однако я советую вам заранее подумать об общих функциях, которые помогут вам принимать мудрые решения. Будете ли вы выполнять пакетную обработку или потоковую передачу, или и то, и другое? Вы хотите перенести свою модель машинного обучения на свои данные или наоборот? Есть ли у вашей компании возможности кодирования или вам нужна среда перетаскивания? Используете ли вы автоматизированное принятие решений или ручные действия на основе информации?

Опять же, вы должны подумать о минимальной сложности, которую вам нужно доказать для вашего варианта использования. Для модели оттока вы можете доказать ценность своей модели только при тестировании действия. Нет смысла прогнозировать отток, если вы не можете убедить их остаться. Однако для модели анализа выживаемости вполне достаточно проверки модели исключительно на исторических данных. Это означает, что во втором случае вы можете полностью работать с разовым дампом данных, тогда как для модели оттока вам нужно иметь возможность обрабатывать новые данные в определенный день, поэтому, возможно, имеет смысл настроить основная среда планирования.

Поэтому нет общего, с чего вы должны начать, кроме как свести его к минимуму. Скорее всего, ничего из вашей платформы V0.1 все равно не выживет. Но вы должны гордиться своим первым вариантом использования, потому что именно поэтому вы получите возможность создать второй, третий, … Что в конечном итоге может привести вас к сбору всех данных, имеющихся в вашей компании, доступных для каждый.