В Sigma Computing мы стремимся помочь бизнес-пользователям принимать решения на основе данных. Основной, но всеобъемлющий вопрос, связанный с этой целью: чего наши пользователи по сути пытаются достичь с помощью анализа данных? Другими словами, для чего должна оптимизироваться система анализа корпоративных данных? Ответ на этот вопрос имеет решающее значение для оперативного анализа данных для наших пользователей.

Текущий взгляд на интерактивный визуальный анализ данных, особенно в мире исследований, был в первую очередь сформирован акцентом Джона Тьюки на исследовательском анализе данных (EDA). Пришло время по-новому взглянуть на это, и, в частности, анализ бизнес-данных может извлечь выгоду из свежего взгляда.

Тьюки, выдающаяся личность, внесшая широкий вклад в статистику и не только, рассматривал анализ данных в два этапа: исследовательский анализ, который он сравнил с детективной работой по сбору доказательств в ходе расследования, и подтверждающий анализ (например, проверка статистических гипотез). , аналогично судебному этапу расследования, когда действительность и сила собранных доказательств должны быть доказаны судье или присяжным. Тьюки подчеркнул важность исследовательского анализа и использования графики (визуализаций) с этой целью, которые игнорировались статистическим сообществом его времени. Нет ничего удивительного в том, что его идеи о важности исследовательского анализа были сформированы его практическим опытом, особенно во время Второй мировой войны. События последних двух десятилетий продемонстрировали ценность взглядов Тьюки на анализ данных, особенно на использование графических представлений. Парадоксально, но этот успех также вызвал туннельное видение, которое часто превращало исследовательский анализ в саму цель. Более того, со времен Тьюки картина того, насколько широко используется анализ данных, кто может получать доступ и выполнять анализ данных, а также как данные хранятся, обрабатываются и управляются резко изменилась.

Обдумайте следующие вопросы пользователей: как лучше всего использовать свой маркетинговый бюджет в 100 000 долларов? Где мне следует формировать новые партнерские отношения, чтобы максимизировать рост доходов? Что мне делать, чтобы достичь цели продаж в следующем квартале? На эти вопросы, в лучшем случае, сложно ответить с помощью традиционного интерактивного исследовательского анализа или инструментов анализа данных бизнес-пользователями, которые обычно не имеют опыта программирования, и требуют много времени. статистический анализ или алгоритмическое моделирование. Эти вопросы также намекают на то, что мы считаем целью анализа бизнес-данных.

Цель анализа бизнес-данных

Основная цель анализа бизнес-данных - улучшить бизнес-решения за счет понимания взаимосвязи между двумя наборами переменных: входные переменные, которые предположительно являются потенциальными драйверами, и выходные переменные (часто единственная переменная), которые являются ключевыми показателями эффективности (KPI). ) предположительно зависит от переменных драйвера.

Проблемы

Хотя интерактивный исследовательский анализ данных полезен, его недостаточно для эффективного выполнения фундаментальной задачи, описанной выше. Есть четыре основных проблемы.

Ограничения человеческого познания. Ограничения рабочей памяти человека и когнитивная перегрузка из-за нехватки времени и сложности данных ограничивают способность пользователя эффективно запускать сценарии что, если без тщательной помощи следуя эффективным методам создания, управления и оценки гипотез. Предвзятость подтверждения, наша тенденция подгонять доказательства к существующим ожиданиям и схемам мышления, затрудняет беспристрастное и строгое исследование выводов. Таким образом, люди обычно не могут сосредоточиться на наиболее значимых доказательствах, уделяя при этом достаточное внимание опровержению гипотез.

Ограничения интерактивного исследовательского анализа. Интерактивное прямое управление как парадигма запросов и преобразования данных плохо масштабируется для изучения взаимосвязей (функций) между драйверами и ключевыми показателями эффективности, часто требующих большого количества преобразований и рассмотрения комбинаций (например, нарезки и нарезки кубиками) наряду с опытом в предметной области.

Масштаб и сложность данных. Увеличенные размеры данных и сложность усугубляют две вышеупомянутые проблемы, легко превращая фундаментальную задачу анализа бизнес-данных в сложный, если не невозможный процесс. Обратите внимание, что данные в корпоративных базах данных постоянно обновляются и добавляются, что упрощает и удешевляет облачные вычисления. Вчерашний возможный выбор или решения, основанные на данных, могут легко оказаться неоптимальными или неосуществимыми сегодня из-за обновлений или наличия новых данных. Таким образом, большие сложные динамические данные оказывают дополнительное давление на человеческое познание и рабочую память, из-за чего эффективный анализ становится чрезвычайно трудным независимо от опыта.

Мертвые данные. Даже если опытный бизнес-пользователь в предметной области сможет построить мысленную модель между потенциальными драйверами и ее ключевыми показателями эффективности, у него не будет простого способа исследовать, рассуждать и прогоняйте сценарии для стресс-тестов и используйте эту ментальную модель для принятия решений. Ментальные модели, построенные на основе исследовательского анализа, не поддаются имитационному или сценарному моделированию на основе синтезированных гипотетических данных.

Элементы анализа бизнес-данных

Давайте попробуем разобраться в основной цели анализа бизнес-данных, о которой говорилось выше. Что означает улучшение решений? Основываясь на наших беседах с бизнес-пользователями и на нашем опыте разработки систем анализа данных, мы делаем следующие наблюдения.

Улучшение решений. Цель анализа данных - улучшить решения, основанные на данных. Улучшенное решение - эффективная реализация идей - по-разному проявляется в разных областях и сценариях использования. Это может быть увеличение продаж, снижение затрат, повышение уровня удержания клиентов, сокращение оттока клиентов, снижение затрат на привлечение клиентов и т. Д. Бизнес-пользователи имеют в виду, ну, бизнес.

Понимание взаимосвязи между данными и ключевыми показателями эффективности Для улучшения решений пользователи должны вручную (мысленно) или иным образом понимать взаимосвязь (функции) между драйверами в их данных и ключевыми показателями эффективности, на которые опираются их бизнес-цели. основаны. Как мы реализуем это понимание на практике? Машинное обучение лучше всего, когда речь идет о функциях обучения между наборами данных. Мы также считаем, что способность динамически экспериментировать с данными, реальными или синтезированными, является ключом к пониманию этих отношений - это форма интерактивного, доступного моделирования сценариев. Обратите внимание, что редко можно найти единственное лучшее решение, не зависящее от контекста, для улучшения цели KPI; вместо этого часто существует несколько возможных решений с различными затратами и компромиссами, связанными с путями принятия решений. Частью введения в действие должно быть быстрое обнаружение, а также управление и отслеживание этих вариантов, что сделает их первоклассными специалистами в области анализа данных.

Используйте данные и опыт. Принятие решений - это взаимодействие между данными и знаниями предметной области, включая здравый смысл. Ни данных, ни знаний (опыта), которыми обладают бизнес-пользователи, недостаточно для улучшения результатов. В бизнесе также важно согласовать человеческую точку зрения, включая примеры и истории, с тем, что говорят данные. С этой целью практические эксперименты важны для формирования доверия к аналитическим решениям. Обнаружение выбросов, случаев, которые не согласуются с аналитическим решением, должно быть частью экспериментирования, обеспечивающего диалектическое понимание.

Ценность систем бизнес-аналитики Ценность системы анализа корпоративных данных или бизнес-аналитики (BI) заключается в том, что они позволяют эффективно принимать более эффективные решения с использованием данных и знаний предметной области.

Desiderata для систем бизнес-аналитики

Основываясь на вышеприведенных наблюдениях и более ранней работе, мы предлагаем, чтобы системы анализа корпоративных данных объединяли четыре интерактивных функции, чтобы расширить возможности бизнес-пользователей, помимо исследовательского анализа при принятии решений.

Анализ важности драйверов. Позволяет пользователям неявно изучать функции (модели), позволяя им понимать отношения между драйверами (входными) и ключевыми показателями эффективности (выходными), а также артефактами этих изученных взаимосвязи, такие как относительная важность различных драйверов и их взаимодействия в прогнозировании результатов KPI.

Анализ чувствительности. Позволяет пользователям динамически оценивать изученные отношения для произвольных входных значений и наблюдать за изменениями в выходных значениях. Это также помогает пользователям выработать интуитивное представление о том, как работает их бизнес на практике. С этой целью системы должны помогать пользователям экспериментировать с драйверами, интерактивно изменяя (увеличивая или уменьшая) их значения и наблюдая влияние на значения KPI.

Анализ инверсии целей. Позволяет пользователям в интерактивном режиме устанавливать цели, такие как конкретные целевые значения или цели оптимизации (максимизация и минимизация) для ключевых показателей эффективности, и наблюдать за несколькими сценариями того, как значения драйвера должны изменить для достижения желаемых целей. Например, системы должны предоставлять рекомендации по изменениям значений драйверов, необходимых для достижения заданных пользователем целей KPI.

Ограниченный анализ Позволяет пользователям в интерактивном режиме устанавливать ограничения или условия в отношении того, как изученные функции (модели) оцениваются и инвертируются, что позволяет пользователям использовать свои знания предметной области и здравый смысл для их регулирования. функции. Это также позволяет пользователям быстро создавать и оценивать несколько сценариев в различных условиях. Например, системы должны позволять пользователям устанавливать ограничения (например, границы или неравенство) для одного или нескольких драйверов и запускать инверсию целей, чтобы обеспечить оптимальные значения драйверов, удовлетворяющие ограничениям пользователя, такие как наименьшие значения для инвестиций или наибольшие для намерений клиента.

Мы реализуем указанные выше пожелания с помощью прототипа интерактивного визуального анализа данных под названием SystemD, реализованного в рамках исследовательского проекта стажировки в Sigma нашими стажерами Sneha и Madelon. Посмотрите наши демонстрационное видео и статью о SystemD.

Исследовательского анализа и визуализации недостаточно

В заключение, во многих отношениях нет никакой загадки в анализе бизнес-данных или в том, чего бизнес-пользователи хотят достичь с помощью анализа данных. Внимательное прочтение работ Тьюки предполагает, что его акцент на EDA и графических представлениях был реакцией (или противоположностью) сухим, чисто подтверждающим подходам к анализу данных его времени. Однако настало время привести маятник интерактивного визуального анализа данных, который в настоящее время смещен в сторону исследовательского анализа, к синтезу, отражающему потребности больших групп пользователей. Это важно, потому что цель анализа корпоративных данных на местах - не красивые картинки и не исследовательские идеи, а улучшенные решения.

Чтобы помочь бизнес-пользователям достичь своих целей KPI с помощью сигналов от данных, нам необходимо изменить то, как мы думаем о дизайне и архитектуре систем бизнес-аналитики. Для начала, системы бизнес-аналитики должны быть оптимизированы для улучшения процесса принятия решений (т. Это предполагает не только анализ на основе моделей, например, основанный на моделях машинного обучения, но и практическое экспериментирование с использованием этих моделей и включение экспертных знаний в предметной области, вызывая доверие и диалектическое понимание. Это также предполагает, что системы бизнес-аналитики должны управлять и отслеживать артефакты принятия решений, рассматривая их как первоклассных граждан в области анализа и управления данными. Мы должны позволить нашим бизнес-пользователям заниматься наукой о данных, не требуя, чтобы они были специалистами по обработке данных, что является сложной задачей.

Здесь мы предлагаем четыре интерактивные функции, которые мы считаем необходимыми для систем бизнес-аналитики, ориентированных на бизнес-пользователей, чтобы улучшить процесс принятия решений на основе данных: анализ важности драйверов, анализ чувствительности, анализ инверсии цели (поиск) и анализ с ограничениями. SystemD - это первый шаг к реализации этих идей в рамках полного рабочего процесса и представлению их нашим пользователям, что позволяет нам наблюдать и повторять представленное выше видение. Мы с нетерпением ждем пути, который позволит бизнес-пользователям получить максимальную отдачу от анализа данных.

Эта запись в блоге адаптирована из статьи, которая будет представлена ​​на конференции CIDR’22. Благодарим Майка Палмера, Питера Дж. Хааса и команду Sigma за их отзывы о публикации.