Создание стека современной аналитики

Компании любого размера во всех отраслях быстро осознают, что для того, чтобы оставаться конкурентоспособными, они должны принять культуру, в которой решения подкрепляются данными и принимаются быстро во всех своих операциях. Это может быть на руководящем уровне, где панели управления бизнес-аналитикой используются для мониторинга общего состояния и производительности компании, для аналитиков, которые запрашивают данные из нескольких источников, чтобы найти идеи, или для инженеров, которые создают инструменты машинного обучения и приложения интеллектуальной автоматизации поверх компании. данные.

По мере увеличения объема данных и вариантов использования организация, интеграция и управление доступом к данным становятся все более сложными, а инструменты и процессы, которые работали в меньшем масштабе, также перестают работать. Компаниям, пытающимся управлять своими данными и внедрять их в масштабе всей организации, нужна надежная инфраструктура, которая может быстро и легко сделать данные доступными. Им необходимо подумать о структурах, которые будут направлять управление данными по мере роста масштабов данных. Одна из важных частей этой работы - настройка стека аналитики.

Что такое стек аналитики?

Стек аналитики - это набор инструментов, которые выполняют определенные процессы как часть интегрированной системы. Комбинируя инструменты, которые выполняют простые процессы, такие как хранение данных из нескольких источников, слияние и преобразование данных и визуализация данных, мы можем создавать более сложные модели поведения. Используя инструменты с конкретными функциями, вы получаете преимущества настраиваемости и взаимозаменяемости. Это означает, что, например, когда ваши потребности в хранении данных резко увеличиваются, а ваше текущее решение для хранения становится слишком дорогим или медленным, вы можете легко заменить этот слой стека или добавить новый, который соответствует вашим потребностям, без необходимости заменять весь стек. .

Что не так со стеком аналитики данных сегодня?

Большинство компаний сегодня запускают свои операции с помощью набора приложений, таких как Salesforce для CRM, Shopify для онлайн-продаж, Workday для ERP, Microsoft Excel для сбора, организации и визуализации данных и Sharepoint для хранения и обмена данными. Эти инструменты отлично подходят для бизнес-задач, но становятся очень ограничивающими для аналитики. Вы быстро поймете, что электронные таблицы Excel неэффективны для хранения или обработки больших объемов данных, или что различные уровни доступа к Sharepoint приводят к разрозненным данным, которые не доступны другим командам для создания своих сценариев использования. По крайней мере, вы найдете людей, использующих автоматические отчеты и информационные панели из таких инструментов, как Salesforce и Hubspot. Самая большая проблема в том, что вы не можете объединить данные из разных приложений для создания инструментов автоматизации или для расширенной аналитики. Кроме того, эти службы предоставляют сводные данные и данные агрегированного уровня, которые бесполезны, если вы хотите вникнуть в детали или сравнить данные во времени.

Компании, которые не придают должного значения созданию надежной аналитической инфраструктуры, понимают, что аналитики данных и ученые неравномерно распределяют свое время на базовые задачи обработки и управления данными, такие как ETL. Опрос, проведенный компанией-разработчиком программного обеспечения Jetbrains, показал, что до 75% членов аналитической группы в конечном итоге работают над этими задачами, а не над бизнес-аналитикой, наукой о данных или машинным обучением, которые являются реальной добавленной стоимостью для аналитики.

У компаний, которые сделали следующий шаг в построении аналитической инфраструктуры с локальным развертыванием хранилищ данных, инструментов интеграции данных и бизнес-аналитики, есть свои проблемы. Аппаратные серверы требуют активного участия ИТ-специалистов, их сложно обслуживать, и требуется много времени, чтобы доказать свою ценность. Кроме того, высокая стоимость настройки затрудняет обмен решениями по мере изменения требований и создает барьер для многих компаний, чтобы позволить себе и масштабироваться с течением времени.

Рост числа платформ облачных вычислений, таких как AWS и Azure, с их расходами на использование хранилищ данных, интеграцией и расширенными предложениями аналитики снял значительное бремя настройки и значительно сократил время окупаемости аналитики. Эта тенденция получила дальнейшее развитие в следующем этапе развития SaaS и компаний, занимающихся облачной аналитикой, таких как Snowflake, Stitch и Looker, которые предоставляют технологии самообслуживания, которые чрезвычайно легко настроить и запустить, а также легко интегрируются друг с другом.

Стек современной аналитики

Чтобы настроить функциональную операцию с данными, организации обычно необходимо объединить несколько служб в стек данных. По сути, эффективный стек данных позволит выполнять три основные операции, включая сбор данных из многих источников и их перенос в систему хранения, очистку и преобразование данных для различных вариантов использования и, наконец, использование преобразованных данных для дополнительной части аналитики. как визуализация или машинное обучение. Все эти три процесса являются частью конвейера данных. Инструменты, которые вы используете для каждого процесса, образуют стек аналитики. Архитектуры конвейеров данных могут различаться в зависимости от потребностей компании, но все они имеют общие черты в основных процессах, описанных выше и показанных на диаграмме ниже.

Мы подробно рассмотрим, что делает каждый процесс, и перечислим некоторые популярные облачные платформы, которые доступны для использования.

Прием и преобразование данных

Первоначальная задача любого аналитического проекта - сделать данные доступными из нескольких разрозненных источников данных. Это могут быть ваши инструменты SaaS, корпоративные приложения, базы данных приложений, данные телеметрии из ваших систем IOT и, возможно, многие другие источники. Многие инструменты, ориентированные на облако, набирают популярность для перемещения данных из источника в цель, такие как Stitch и Fivetran. Эти инструменты могут перемещать данные из более чем 100 источников, включая самые популярные приложения и базы данных, которые используют компании. Но некоторым компаниям может потребоваться собственный метод или подход для сбора данных, и есть также множество программных инструментов, которые помогут в этом. Например, Singer - это инструмент с открытым исходным кодом, который можно использовать для программирования коннекторов, которые отправляют данные между любыми настраиваемыми источниками и целями, такими как веб-API и файлы.

Потоки в реальном времени

Некоторые из основных сценариев использования в аналитике, такие как обнаружение мошенничества с кредитными картами, полагаются на поток данных в реальном времени. Приложения, которые непрерывно генерируют новые данные, могут либо передавать данные получателю с помощью потокового API, либо данные могут быть извлечены приложением-получателем из очередей или посредством запросов на опрос к API. Такие инструменты, как Stitch, можно использовать для опроса данных за очень короткие промежутки времени для имитации потока в реальном времени, но сервисы потоковой обработки, такие как Apache Kafka и Amazon Kinesis, разработаны специально для обработки потоков данных в реальном времени. Вы можете прочитать статью о том, как пользоваться Amazon Kinesis здесь.

ETL

После того, как вы настроили процесс приема данных, вам нужно будет решить, хранить ли данные в необработанном виде или преобразовать данные в формы, более удобные для анализа. Это будет зависеть от того, насколько полезны данные в необработанном виде. Вы можете захотеть очистить и унифицировать неполные, беспорядочные или нерелевантные данные, прежде чем загружать их в хранилище данных. Кроме того, данные могут поступать в форматах, несовместимых с вашим хранилищем; например, вы можете захотеть сгладить вложенные объекты JSON из API, чтобы их можно было хранить в базе данных.

Процесс преобразования полученных данных перед их сохранением известен как ETL (извлечение, преобразование, загрузка). Существует множество облачных инструментов ETL, яркими примерами которых являются Talend и Matillion.

ELT

С другой стороны, вы можете выбрать преобразование необработанных данных сразу после их загрузки в провайдер хранилища. Это известно как ELT (извлечение, загрузка, преобразование). Такой подход позволяет сделать историю необработанных данных из многих источников доступной для более широкого спектра сценариев использования аналитики. DBT - это инструмент с открытым исходным кодом, который стал очень популярным для ELT из-за того, что он сочетает в себе лучшие инженерные практики с аналитикой.

Многие современные аналитические архитектуры предпочитают подход ELT, потому что он увеличивает гибкость конвейера. Это становится еще проще с решениями для хранения, такими как хранилище данных Snowflake, которые позволяют хранить и запрашивать полуструктурированные данные. Но дело не в выборе ETL или ELT, поскольку сочетание обоих подходов может быть правильным в зависимости от потребностей компании.

Хранилище данных

Следующая часть стека аналитики данных - это платформа хранения данных. Самая популярная стратегия - разместить данные из всех ваших источников в общем репозитории, где данные можно преобразовать и объединить для различных вариантов использования. Самым популярным решением для хранения данных являются хранилища данных - они хранят необработанные и преобразованные данные в базах данных, к которым легко получить доступ разным группам внутри компании. Традиционно витрины данных были популярным решением для хранения данных для определенных областей, таких как человеческие ресурсы и финансы, в их собственных базах данных и на серверах, но за счет изолированности. Революция в облачных хранилищах данных с такими платформами, как Snowflake, AWS Redshift и Google BigQuery полностью разрушает эту картину. Например, популярность Snowflake возросла из-за своей архитектуры, разделяющей ресурсы хранения и вычислительные ресурсы. Поскольку стоимость хранилища резко снизилась, разделенная архитектура Snowflake позволила компаниям дешево хранить огромные объемы необработанных данных из всех своих источников и использовать вычислительные ресурсы только для преобразования данных в сценариях использования аналитики. Прочтите эту статью о том, как настроить архитектуру Snowflake.

Другой подход заключался в хранении необработанных данных без каких-либо конкретных целей в настоящий момент в озерах данных. Озера данных не являются платформами на основе реляционного SQL, такими как хранилища данных, и полностью противоположны по концепции витринам данных. Озера данных - это обширные хранилища общих данных, которые позволяют хранить любые данные, будь то структурированные или неструктурированные, без какой-либо организации. Хотя в них сложно ориентироваться, они обладают тем преимуществом, что упрощают запуск новых сценариев использования аналитики и исследований в области науки о данных. Некоторыми примерами озер данных являются AWS S3 и Azure Blobs. Однако такие платформы, как Snowflake, также сочетают в себе преимущества озер данных, используя облачное хранилище, такое как S3, в качестве решения для хранения, что делает Snowflake столь же дешевым для хранения. Кроме того, с их способностью хранить полуструктурированные данные и автоматически оптимизировать данные для хранения и запросов среди других функций, такие решения, как Snowflake, могут служить заменой озер данных во многих стеках аналитики.

Аналитика данных и машинное обучение

Аналитика находится на вершине иерархии в стеке аналитики. Для каждого сценария использования аналитики команды захотят наметить целевые метрики и релевантные KPI. Затем они могут выбрать либо моделирование и хранение данных в хранилище данных для обслуживания варианта использования, либо моделирование данных, когда они будут помещены в выбранный ими инструмент аналитики. Выбор того, какой инструмент аналитики использовать, зависит от того, какой вид деятельности выполняется и кто является пользователем. Этими пользователями могут быть бизнес-группы, группы разработчиков и разработчиков или группы обработки данных.

Бизнес-аналитика - наиболее распространенный вариант использования аналитики для большинства компаний. На фундаментальном уровне бизнес-аналитика предоставляет пользователям простой способ анализировать исторические, текущие и прогнозные обзоры бизнес-операций. Чтобы выбрать инструмент бизнес-аналитики, мы должны сначала сузить область применения. Компании теперь понимают, что предоставление панелей управления бизнес-аналитикой бизнес-пользователям и руководителям дает большие преимущества. Панели мониторинга предоставляют конечным пользователям самостоятельный доступ к аналитическим данным, которые могут повлиять на чистую прибыль. Они также предоставляют специальный анализ с такими функциями, как фильтры данных, а также возможность группировать или изолировать данные для поиска интересных тенденций. Примеры платформ бизнес-аналитики, таких как Chartio и Microsoft PowerBI, также очень легко развернуть для бизнес-групп без постоянного участия ИТ-специалистов. После настройки бизнес-пользователи легко подключают платформы бизнес-аналитики к выбранным смоделированным данным в хранилище данных, которые удовлетворяют их потребности. Кроме того, многие компании также ищут способы интеграции инструментов аналитики в свои существующие приложения и бизнес-процессы в целом. Встроенные инструменты аналитики предоставляют эти возможности, позволяя разработчикам встраивать визуализацию в приложения. Sisense - это пример платформы, которая помогает разработчикам встроить пользовательскую аналитику в любое приложение с помощью API.

Расширенная аналитика по-прежнему, как правило, применяется реже, но она может быть одним из наиболее ценных видов деятельности, выделяющих компании. Наука о данных - это одно из тех направлений деятельности, где более сложные статистические методы и моделирование применяются к структурированным и неструктурированным данным в огромных объемах для получения прогнозных или предписывающих выводов. Наука о данных включает в себя много исследовательской работы, поэтому специалисты по обработке данных обычно используют инструменты запросов для первоначального исследования данных, а затем создают собственные программы, которые подключаются к хранилищам данных для извлечения данных или интеграции с такими платформами, как RapidMiner, которые предоставляют интегрированные среды для интеллектуального анализа данных и прогнозной аналитики. Машинное обучение - это расширение работы в области науки о данных, когда смоделированные данные передаются в такие сервисы, как AWS SageMaker или Data Robot, для обучения, оценки и развертывания моделей. Эти модели затем интегрируются в существующие продукты компании для функций, ориентированных на клиентов, таких как механизм рекомендаций, используемых с существующими аналитическими инструментами для расширенной аналитики, такой как прогноз оттока, или как часть приложений интеллектуальной автоматизации, таких как прогнозирующее обслуживание нагрузки на серверы. Из-за огромного количества вариантов использования, относящихся к расширенной аналитике и машинному обучению, сложно выделить несколько инструментов. В отличие от бизнес-аналитики, расширенная аналитика может иметь очень сложную собственную архитектуру, но компоненты обработки и хранения данных в стеке аналитики остаются прежними.

Последние мысли

Переход от разрозненных приложений для базовой аналитики к созданию собственного стека может стать серьезной задачей. Мы изложили руководство, как вам следует относиться к компонентам в своем стеке. Если ваша компания только начинает свой путь, важно знать, что не существует универсальных инструментов, подходящих для всех. А инструменты, которые подходят для ваших сценариев использования сегодня, возможно, придется менять по мере роста объема ваших данных. Следовательно, ваш стек аналитики будет постоянно развиваться. Независимо от того, на каком этапе вы находитесь, тщательно подумайте об инструментах, которые хорошо подходят для ваших сегодняшних потребностей, но являются масштабируемыми или взаимозаменяемыми в будущем.

Нужна помощь с вашим стеком аналитики? Свяжитесь с нами через LinkedIn.