Как мы знаем, данные являются бизнес-активом любой организации, которая подвергается аудиту и защите. Чтобы добиться успеха в своем бизнесе, для каждой организации становится очень срочно выбирать несколько хороших моделей прогнозных данных и проверять их с помощью тестовых данных, прежде чем выяснять план ввода в действие модели, которая будет развернута в производственной среде, чтобы приложения могли ее использовать.

Компаниям необходимо извлекать больше пользы из своих данных. Однако размер, сложность и разнообразие источников данных требуют современной аналитической архитектуры. Для лучшего наблюдения и получения прибыли мы можем сказать, что данные и аналитика необходимы организациям.

Опрос, проведенный в Абердине, показал, что организации, внедрившие современную платформу аналитики озера данных, превосходят аналогичные компании по органическому росту выручки на 9%. Эти лидеры смогли выполнять новые типы аналитики, такие как машинное обучение, по таким источникам данных, как файлы журналов, данные из потоков, социальных сетей и подключенных к Интернету устройств, которые хранятся в озерах данных, таких как Azure Data Lake или AWS Data Lake.

Мы здесь для того, чтобы увидеть, как современная аналитика озера данных может помочь любой организации улучшить свой бизнес, изучая разнородные источники данных, и может определить следующее:
1. Более быстрое выявление возможностей и использование возможностей
2. Развивайте бизнес быстрее даже раньше
3. Привлекайте и удерживайте больше клиентов
4. Повышайте производительность и отслеживайте их эффективность
5. Проактивно обслуживайте устройства
6. Принимайте более обоснованные решения

Все растущие организации понимают, что данные растут в геометрической прогрессии, поступают из новых источников, становятся все более разнообразными и требуют безопасного доступа и анализа для любого количества приложений и людей в все более короткие периоды времени. На данный момент организации ищут долговременную и стабильную технологию, которая способна извлекать больше пользы из своих данных, правильно собирать, хранить их в едином репозитории, то есть в озере данных, и анализировать все данные, генерируемые современными и современными технологиями. цифровой бизнес.

Преимущества современной архитектуры анализа данных

  1. Безопасно храните данные в любом масштабе и с низкими затратами, используя стандартные форматы данных по своему выбору.
  2. Гибкость для анализа данных различными способами с использованием широкого набора аналитических механизмов, чтобы гарантировать, что их потребности будут удовлетворены для текущих и будущих сценариев использования аналитики.
  3. Визуализации, выходящие за рамки понимания, от оперативной отчетности по историческим данным до возможности выполнять аналитику в реальном времени и машинное обучение для точного прогнозирования будущих результатов

Растущие организации знают, что традиционные хранилища данных также неэффективны при обработке разнообразных полуструктурированных и неструктурированных данных, поступающих из потоков посещений, журналов, социальных сетей, датчиков Интернета вещей и других современных источников данных. Это связано с тем, что типы данных внутри него не подходят для нормализованной структурированной модели данных. Таким образом, им нужен другой аналитический движок для обработки этих новых типов данных, например, фреймворк Hadoop для больших данных.

Еще одна проблема связана с процессом отложенной пакетной загрузки данных, поскольку эти процессы ETL чаще всего выполняются ночью, но некоторые организации хотят иметь доступ к своим данным круглосуточно и без выходных, что является самым большим препятствием для роста бизнеса.

Традиционные хранилища данных часто требуют от организаций внедрения дорогостоящих обходных решений, которые часто оставляют конфиденциальные данные вне досягаемости аналитиков.

Традиционные хранилища данных либо не поддерживают сложное машинное обучение или прогностические рабочие нагрузки, либо поддерживают их только в ограниченном объеме.

В традиционных хранилищах данных безопасность и конфиденциальность данных также являются проблемой. Такие отрасли, как здравоохранение и финансовые услуги, которые работают с высокочувствительными данными, требуют, чтобы хранилище данных соответствовало требованиям ISO, HIPAA, FedRAMP и т. Д.

Параллельная потребность в хранилище данных и озере данных

Назначение хранилища данных полностью отличается от цели озера данных, потому что:

  1. В традиционном хранилище данных хранятся реляционные данные из транзакционных систем, операционных баз данных и бизнес-приложений, тогда как в озере данных хранятся нереляционные и реляционные данные из потоков кликов, журналов, устройств IoT, веб-сайтов, мобильных приложений, социальных сетей и корпоративных приложений.
  2. Традиционное хранилище данных основано на схеме при записи, а озеро данных - на схеме при чтении.
  3. Традиционное хранилище данных обеспечивает пакетную отчетность, бизнес-аналитику и визуализацию, тогда как озеро данных обеспечивает машинное обучение, прогнозную аналитику, обнаружение данных и профилирование.

В зависимости от требований типичной организации потребуется как хранилище данных, так и озеро данных, поскольку они обслуживают разные потребности и сценарии использования. По мере того как организации с хранилищами данных видят преимущества озер данных, они развивают свои хранилища, чтобы включить их, чтобы включить разнообразные возможности запросов, сценарии использования науки о данных и расширенные возможности для обнаружения новых информационных моделей. Gartner назвал это развитие «решением для управления данными для аналитики» или «DMSA».

Конвейеры аналитики предназначены для обработки больших объемов входящих данных из разнородных источников, таких как базы данных, приложения и устройства.
1. Сбор данных
2. Обработка данных
3. Храните данные
4. Анализируйте и визуализируйте данные
5. Прогнозируйте будущие результаты

Под сбором данных понимаются различные типы данных - данные транзакций, данные журналов, данные потоковой передачи и данные Интернета вещей (IoT). Каждый тип может храниться в хранилищах данных, наиболее подходящих для данных и их использования.

Транзакционные данные, такие как транзакции электронной коммерции и финансовые транзакции, обычно хранятся в системах управления реляционными базами данных (RDBMS) или в системах баз данных NoSQL.

Данные журнала надежно собирают журналы, созданные системой, что помогает устранять проблемы, проводить аудит и выполнять аналитику с использованием информации, хранящейся в журналах.

Веб-приложения, мобильные устройства и многие программные приложения и службы могут генерировать ошеломляющие объемы потоковых данных, которые необходимо постоянно собирать, хранить и обрабатывать.

Устройства и датчики предоставляют данные Интернета вещей, которые поступают со всего мира, путем непрерывной отправки сообщений.

Обработка данных - процесс сбора собирает или извлекает данные из источников данных, преобразует данные и сохраняет данные в отдельном месте назначения, таком как другая база данных, озеро данных или аналитическая служба, такая как хранилище данных. где его можно обработать или проанализировать. Существует два типа рабочих процессов обработки данных: пакетная обработка и обработка в реальном времени, при которой обработка в реальном времени выполняет встроенные преобразования данных в памяти, пока данные еще находятся в пути, прежде чем они будут сохранены.

Хранение данных. Данные могут храниться либо в озере данных, либо в аналитическом инструменте, таком как хранилище данных. Озеро данных - это централизованное хранилище всех данных, включая структурированные и неструктурированные. Хранилище данных использует предопределенную схему, оптимизированную для аналитики, а данные тщательно отслеживаются и служат единым источником правды из нескольких источников данных. Витрина данных - это простая форма хранилища данных, ориентированная на определенную функциональную область или предмет и содержащую копии подмножества данных в хранилище данных.

Аналитика данных. Современный конвейер аналитики может использовать различные инструменты, чтобы раскрыть ценность, скрытую в данных. Один размер не подходит для всех. Любой инструмент аналитики должен иметь возможность доступа и обработки любых данных из одного источника или нашего озера данных. Данные могут быть скопированы из нашего озера данных в наше хранилище данных, чтобы соответствовать структурированной и нормализованной модели данных, которая использует преимущества высокопроизводительного механизма запросов. Другие инструменты аналитики больших данных должны иметь доступ к тем же данным в озере данных.

  1. В интерактивном анализе обычно используются стандартные инструменты SQL-запросов для доступа к данным и их анализа. Конечным пользователям нужны быстрые результаты и возможность быстро изменять запросы и повторно запускать их.
  2. Аналитика хранилищ данных дает возможность выполнять сложные аналитические запросы к большим объемам данных с помощью высокопроизводительного, оптимизированного для аналитики механизма запросов.
  3. Аналитика озера данных: появляется новое поколение хранилищ данных, которое
    расширяет запросы хранилища данных на озеро данных для обработки структурированных или
    неструктурированных данных в хранилище данных и озере данных и масштабируется до
    эксабайт без перемещения данных
  4. Обработка больших данных использует фреймворки Hadoop и Spark для обработки огромных объемов данных.
  5. Операционная аналитика направлена ​​на улучшение существующих операций и использует такие данные, как мониторинг приложений, журналы и данные о переходах.

Применение машинного обучения. По мере того, как организации генерируют, хранят и анализируют растущие объемы данных, появляется желание использовать эти обширные наборы данных автоматизированными способами для достижения бизнес-результатов и все больше полагаться на машинное обучение для автоматизации задач. , предоставлять персонализированные услуги конечным пользователям и клиентам и повышать эффективность операций за счет анализа их данных. Машинное обучение часто кажется намного сложнее, чем следовало бы, потому что процесс создания и обучения моделей и их развертывания в производственной среде сложен и медлителен.

В процессе машинного обучения необходимо собрать и подготовить наши обучающие данные, чтобы определить, какие элементы нашего набора данных важны. Затем нам нужно выбрать, какой алгоритм и фреймворк использовать. После принятия решения о нашем подходе нам нужно научить модель делать прогнозы путем обучения, что требует больших вычислений. Затем нам нужно настроить модель, чтобы она давала наилучшие возможные прогнозы, что часто является утомительным и ручным усилием. Полностью обученная модель, необходимо интегрировать модель с нашим приложением и развернуть это приложение в масштабируемой инфраструктуре. Все это требует большого количества специализированных знаний, доступа к большим объемам вычислений и хранилищ, а также много времени для экспериментов и оптимизации каждой части процесса.

Ссылка из AWS Resource Hub