Раскройте истинную мощь ваших данных, хранящихся в озерах данных

В нашем втором блоге Создание озера данных на AWS объяснялся процесс проектирования озера данных и построения процесса обработки данных в нем.

Этот блог — наша попытка задокументировать, как Ясновидящая использует AWS для решения задач, связанных с анализом данных. Узнайте больше, чтобы узнать, как можно эффективно использовать данные для извлечения/создания аналитических сведений.

Уровень статистики

Получив очищенные и преобразованные данные, мы можем использовать их для получения информации.

Что такое анализ данных?

Понимание данных — это знания, которые компания получает в результате анализа набора информации, относящейся к данной теме или ситуации. Анализ этой информации дает информацию, которая помогает предприятиям принимать обоснованные решения и снижает риск, связанный с методами тестирования методом проб и ошибок.

В цифровом мире, в котором мы живем, у нас под рукой огромное количество данных. Но хотя любой может получить доступ к необработанным данным, способность извлекать из цифр ценную и полезную информацию определяет, сможете ли вы создать конкурентное преимущество для своего бизнеса.

В чем разница между данными и статистикой?

Многие считают данные и идеи синонимами, но между этими двумя терминами есть тонкие, но важные различия. Данные — это информация; обычно наборы чисел или текста. Инсайты — это знания, полученные в результате анализа данных и создания на их основе выводов, которые могут принести пользу вашему бизнесу. Данные — это вход, а выводы — выход.

Данные могут показывать, что за последние 30 дней у ваших пользователей было 2000 сеансов.

Аналитика может показать вам, сколько сеансов происходит на iPhone в Индии.

Статистика может показать, что эти сеансы на iPhone совершают покупки на 20 % реже.

Зачем нам нужна статистика?

  • Быстрый и точный анализ информации о клиентах
  • 360-градусный обзор поведения клиентов
  • Помогите лучше понять потребности клиентов
  • Обеспечение персонализированного взаимодействия
  • Поддержка после запуска
  • Мониторинг системы
  • Восстановите связь с клиентами
  • Выявляйте тенденции и прогнозируйте результаты
  • Укрепляйте отношения с клиентами

Отсутствие понимания = отсутствие вовлеченности

Общий подход к Data Insights

Современная аналитика с облачными платформами

Проблемы анализа данных

Решение проблем, возникающих при извлечении информации из данных

Несмотря на сложность и проблемы, возникающие при извлечении информации из данных, его преимущества неоспоримы. Data Insights обеспечивает более глубокое понимание данных, они дают заинтересованным сторонам компании взгляд на аномалии.

Создание решений для анализа данных/аналитики на AWS

AWS предоставляет нам несколько сервисов на каждом этапе конвейера анализа данных. У нас есть разные шаблоны архитектуры для разных вариантов использования, включая пакетную, интерактивную и потоковую обработку, а также несколько сервисов для извлечения информации с помощью машинного обучения.

В принципе, существует четыре различных подхода к реализации конвейеров:

  1. Виртуализация: это наименее рекомендуемый подход, но это самый простой первый шаг для тех, кто переносит свой конвейер анализа данных в AWS. Вы можете просто создать достаточно мощные инстансы EC2 и развернуть в них собственную платформу аналитики данных с открытым исходным кодом (или лицензированную).
  2. Управляемые сервисы. По сути, это экземпляры EC2, управляемые AWS, с работающей на них платформой аналитики (также управляемой AWS). Это позволяет нам сосредоточиться только на наших данных и избавляет нас от большого количества нежелательной работы. AWS предоставляет ряд управляемых сервисов для аналитики больших данных. Сюда включены большинство фреймворков с открытым исходным кодом, а также некоторые проприетарные для AWS.
  3. Контейнерные услуги. Теперь мы вступаем в захватывающий мир. Контейнерные приложения — это приложения, развернутые в контейнере Docker. Естественно, они намного более рентабельны, чем два предыдущих, потому что нам не нужен базовый EC2. У AWS есть ряд сервисов и готовые образы Docker, которые помогут нам начать работу с таким решением. Вы, конечно, можете принести свои.
  4. Бессерверные услуги. Наиболее интересным и наиболее рекомендуемым AWS является сегмент бессерверных услуг. Они очень рентабельны и масштабируемы. AWS рекомендует нам перейти на собственные бессерверные архитектуры. Единственным недостатком этого подхода является то, что он привязывает нас к AWS — если вы хотите спланировать возможность того, что ваше решение может существовать вне облака AWS, вы можете быть осторожны. В противном случае бессерверная архитектура — лучший выбор.

Популярные инструменты/технологии, используемые для аналитики и машинного обучения

Подводя итог всему процессу

На приведенной ниже диаграмме подытожен весь процесс анализа данных, а также различные доступные нам варианты:

Образец архитектуры для потоковой информации/аналитики в реальном времени

При этом используются различные сервисы для обработки и хранения данных. По мере сбора потока данных Kinesis Data Analytics обрабатывает его для начальной обработки. Кроме того, он затем передается в поток обработки данных различных приложений для извлечения и классификации различных аспектов данных. Это передается в службы ИИ для создания любых необходимых прогнозов в реальном времени.

Остальные хранятся в различных службах хранения данных в зависимости от типа данных, извлеченных и выделенных из входного потока. Это, наконец, используется для создания уведомлений и идей. Очищенный поток данных пересылается любому другому нижестоящему приложению, которое может захотеть его обработать.

Ключевые выводы

Авторы

Сачин Арора, Анируддха Море