Отличный пост Шона о стоимости отслеживания слишком большого количества метрик поставил под сомнение мои предположения о роли метрик и информационных панелей в отслеживании прогресса на пути к долгосрочному видению. Я считал, что командам нужно отслеживать столько метрик, сколько требуется, чтобы получить полную картину того, что важно для их бизнеса. У меня было много вопросов, и Шон был достаточно великодушен, чтобы дать подробные ответы и позволить мне поделиться ими публично.

Его ответы дают представление о его путешествии в качестве основателя двух аналитических стартапов и советника предприятий и учредителей. Я был очарован ясностью видения и прогрессом его недавнего стартапа Outlier, который позволил командам задавать правильные вопросы и обнаруживать неизвестные неизвестные во все более сложном и быстро меняющемся бизнес-климате.

Подходы к автоматизированному анализу, которыми он поделился, вдохновляют команды, которые могут захотеть построить или купить инфраструктуру с этой возможностью, начиная с базовых эвристик и постепенно переходя к более сложным подходам.

Наслаждайтесь интервью!

Что вы посоветуете командам, которые довольны выбором показателей, но обнаруживают, что они не всегда отражают всю картину?

Показатели, которые вы выбираете, всегда будут страдать от какой-то предвзятости выбора. Это не обязательно плохо, так как ваш опыт является важным фактором в будущих решениях, и если вы используете этот опыт как предвзятость, вы выберете лучшие показатели. Однако все формы опыта хороши только в том случае, если будущее похоже на прошлое! Это становится менее верным, поскольку бизнес движется быстро и быстро меняется.

Реальность такова, что проблемы и возможности завтрашнего дня не будут найдены в выбранных вами метриках, поскольку они придут из самых неожиданных мест. Чем больше вы сосредотачиваетесь на том, что вам уже известно, тем меньше вероятность того, что вы найдете эти неожиданные возможности, являющиеся воротами в будущее.

Иными словами, выбранные вами показатели помогут вам оптимизировать краткосрочную производительность, но сильно помешают вашим долгосрочным перспективам. Если вы сосредоточены только на краткосрочной перспективе, этого может быть достаточно, и, к сожалению, лишь немногие компании смотрят дальше краткосрочной перспективы.

Однако, если вы хотите максимизировать свою долгосрочную производительность, вам нужно найти способ выйти за рамки показателей, которые вы знаете и считаете полезными, чтобы использовать эти неожиданные области, скрытые в данных. Это требует совершенно нового образа мышления.

Могут ли инструменты упростить просмотр более широкого набора данных и показателей по всей организации, сохраняя при этом внимание к ценной информации?

Да, но основной проблемой таких инструментов является точность. В большинстве крупных компаний ежедневно происходят сотни тысяч аномальных вещей, которые не интересны и не полезны. Обнаружение аномалий в значительной степени потерпело неудачу в бизнесе по этой причине, слишком высокий уровень шума.

Это то, что сделала Outlier, она изучила данные по всему спектру приложений, которые вы используете (маркетинг, CRM и т. д.), и выявила важные возникающие закономерности. Часто это были изменения в поведении потребителей, но они включали изменения в бизнес-операциях, сдвиги на рынке и т. д. У наших пользователей были десятки миллионов клиентов и примерно 5–6 миллионов клиентских сегментов (если использовать все возможные параметры сегментации клиентов). У групп аналитиков неизбежно не было возможности просмотреть все, поэтому автоматический анализ этих данных выявлял важные идеи, которые в противном случае были бы упущены.

Один из способов думать об этом состоит в том, что традиционная бизнес-аналитика отвечает на вопросы, которые вы знаете, чтобы задавать, но вам нужны новые инструменты, которые задают вам эти вопросы. У вас есть горы данных, и вы можете просмотреть только небольшую их часть, используя традиционные методы. Нужны новые подходы, и машинное обучение — способ их раскрыть. Мы увидели, что это трансформирует то, как организации используют данные и принимают решения.

Outlier выявил 3–5 самых важных вопросов, которые вы должны задавать каждый день, включая полный анализ того, что произошло, почему это произошло и возможные первопричины. Если их было больше пяти, у людей, как правило, не было ни времени, ни терпения, чтобы просмотреть их все, так что верность была критической. В результате найти закономерности было несложно, а отделить сигнал от шума для людей.

Пользователи могли комментировать истории, и многие так и делали, но чаще делились историями с другими и совместно работали над решениями, используя существующий рабочий процесс. Outlier был постоянным потоком тематических исследований, поскольку истории обычно приводили к действиям, и это сделало тематическое исследование!

Что вы можете рассказать о том, как вы подошли к проблеме автоматизированного анализа? Например, вам нужно было создать семантическую модель данных? Использовали ли вы метод контролируемого обучения?

Нет, мы использовали чисто математический подход. Обучение с учителем не работает, потому что масштаб слишком велик, и чем больше контроля вы обеспечиваете, тем больше вероятность того, что оно расскажет вам только то, что вы уже знаете. Сила ИИ заключается в том, чтобы находить вещи, которые мы даже не знали, чтобы искать, а это означает, что неконтролируемые подходы — единственные, которые работают. Хорошим примером являются модели Diffusion, популярные в искусстве искусственного интеллекта.

Нельзя полагаться на какой-то один подход. Любая данная модель, эвристика или алгоритм будут (в лучшем случае) точны на 80%, что недостаточно для человеческого восприятия. Гораздо лучше работает конвейерный подход, объединяющий десятки подходов. Это то, что использовал Outlier, конвейер из десятков шагов, чтобы начать с необработанных данных и информации о продукте. Один шаг может классифицировать временные ряды, другой может обнаруживать тенденции, а третий может объединять эти тенденции в группы.

Если вы задумаетесь об этой проблеме, любая большая система данных, вероятно, имеет миллионы перестановок сегментов и измерений. Каждое из этих измерений представляет собой временной ряд, и их объем может привести к сотням тысяч аномалий только из-за случайного шума. Вот почему люди используют эвристики, чтобы сократить шум, но они делают это, жертвуя большей частью данных. Другой подход — построить конвейер, который превращает миллионы временных рядов в сотни тысяч аномалий, затем в десятки тысяч кластеров, затем в тысячи паттернов, затем в сотни потенциальных идей и т. д.

Outlier была системой без семантики, поэтому она не требовала длительного процесса моделирования и сопоставления данных. Он также учитывал качество данных, поэтому не требовалось очищать или очищать данные перед интеграцией. Проблемы с качеством данных обнаруживались путем поиска самоподобных шаблонов в данных. Когда данные значительно изменяются по сравнению с собственными естественными шаблонами, вероятно, существует либо проблема качества данных, либо прерывистое бизнес-событие. Такие бизнес-события случаются редко, поэтому, когда они случаются, обычно это проблема качества данных.

Могут ли семантические модели помочь повысить качество выводов, получаемых в результате автоматического анализа, или обеспечить более интуитивно понятное представление выводов для пользователей?

Семантические модели сложны. Большинство компаний путают модели данных и семантические модели, но на самом деле это две разные вещи. Ваша модель данных — это то, как вы представляете клиента, покупку и транзакцию в своей базе данных. Семантическая модель — это то, что значит быть активным клиентом, постоянным клиентом и повторной транзакцией. Разные компании могут иметь одну и ту же модель данных и совершенно разные семантические модели! Модели данных также остаются относительно стабильными, в то время как семантические модели могут постоянно меняться по мере смены руководства или бизнеса.

Тем не менее, семантические модели абсолютно важны, потому что именно с их помощью вы получаете ценность данных. Данные бесполезны без семантики, объясняющей, почему они важны и какие действия вы можете предпринять. В результате данные без семантики бесполезны.

Есть два способа включения семантических моделей в ваш анализ. Первый и наиболее распространенный — полагаться на то, что конечные пользователи поймут семантику. Вы представляете данные пользователю, используя определенную терминологию, а пользователь привносит значение и интерпретацию на основе своего опыта и знаний. Хотя это зависит от того, что конечный пользователь много знает о бизнесе, обычно конечные пользователи много знают о своем бизнесе.

Второй подход заключается во встраивании семантических моделей в ваши программные инструменты. Это достигается с помощью промежуточных уровней, таких как LookML, VizML и т. д. Это может работать, но требует большого обслуживания, потому что, опять же, эта семантика сильно изменится. В командах, использующих этот подход, часто есть штатные сотрудники, каждый день поддерживающие и расширяющие эти модели. Если у вас есть ресурсы, это означает, что конечному пользователю требуется меньше знаний для понимания данных и принятия решений, но это недешево.

Один из интересных уроков Outlier заключался в том, что семантика тем менее необходима, чем дальше вы удаляетесь от ожидаемых событий. У Outlier не было семантического уровня, поэтому он полагался на конечного пользователя, который предоставил свою семантику. Тем не менее, поскольку Outlier выявлял неожиданные идеи, они все равно часто выпадали из опыта и семантических моделей конечного пользователя. Таким образом, даже если бы компания вложила средства в поддержку семантической модели в своем программном обеспечении, это не помогло бы, потому что важные идеи пришлись на новую, неизведанную часть бизнеса.

Здесь есть много места для инноваций, и я подозреваю, что новые инструменты искусственного интеллекта, такие как LLM, помогут нам автоматически привнести семантику в большие наборы данных и начать восполнять этот пробел.

Кто был целевым пользователем Outlier? Могут ли такие инструменты, как Outlier, помочь разным пользователям получить персонализированную информацию?

Пользователями Outlier, как правило, были бизнес-пользователи — продакт-менеджеры, маркетологи, специалисты по эксплуатации и т. д. Эти бизнес-пользователи полагались на Outlier, чтобы узнать, чего им не хватает, а затем задавали эти вопросы командам аналитиков, чтобы получить ответы на них.

Персонализация — ключ к автоматическому анализу. Предоставляемые аналитические данные индивидуальны для каждого пользователя, поэтому работа с продуктом оптимизирована для всех. Это похоже на использование Facebook — ваша лента отличается от моей, поскольку она представляет ваши интересы и адаптирована для вас.

Считаете ли вы, что роль аналитика развивается с появлением более совершенных инструментов автоматизированного анализа?

Да, конечно. Сегодня аналитики тратят 90 % своего времени на ETL и обработку данных, и только 10 % — на фактический анализ. Новое поколение инструментов автоматизированного анализа обещает позволить им тратить 100% своего времени на анализ, в чем люди в любом случае превосходят людей.

Эти 90% времени, затрачиваемого на обработку данных, сегодня в значительной степени тратятся впустую, и, используя ИИ для их восстановления, у нас есть потенциал для гораздо более продуктивных групп аналитиков.

Планируете ли вы продолжать работать или инвестировать в это пространство?

Я по-прежнему считаю, что будущее бизнес-аналитики за автоматизированным анализом. Когда мы запустили Outlier в 2015 году, идея о том, что программная система может автоматически получать информацию из больших наборов данных, казалась научной фантастикой. С тех пор такие инструменты, как Outlier и более масштабная волна искусственного интеллекта, сделали это будущее неизбежным, поскольку оно возможно сегодня.

Я подозреваю, что в недалеком будущем мы будем смотреть на информационные панели так же, как сегодня смотрим на бумажные карты улиц. Было время, когда мы везде ориентировались по бумажным картам улиц, но сегодня они полностью вытеснены навигационными технологиями. То же самое произойдет с автоматизированным анализом, который заменит информационные панели в бизнесе.

PS: Если вы хотите узнать больше о мыслях Шона о данных, лидерстве и предпринимательстве, следите за его информационным бюллетенем (The Breaking Point) и подкастом (The Startup Служба поддержки).