использование Azure Data Lake для аналитики

В настоящее время в рамках наших требований мы работаем с указанными ниже компонентами Azure.

  • Центр событий Azure

  • Azure Stream Analytics

  • Хранилище таблиц Azure

  • База данных SQL Azure

По сути, с первыми тремя компонентами мы будем создавать платформу аналитики и отчетов.

В настоящее время, когда мы только начали, мы анализируем данные из хранилища таблиц Azure и отображаем их на панели аналитики.

Недавно мы познакомились с новым продуктом Azure Azure Data Lake. Проведя небольшое исследование на веб-сайте Microsoft, мы увидели, что можем легко перенести данные из хранилища таблиц Azure (с помощью фабрики данных Azure) в Azure Lake Store. Создание конвейеров больших данных с помощью Azure Data Lake и фабрики данных Azure

При переходе по указанной выше ссылке упоминается, что нам нужно создать конвейер Azure Data Lake Analytics для обработки данных.

Так что неясно, где будут сохраняться выходные данные аналитики. Нужно ли сохранять вывод аналитики в какую-то БД? Или мы можем проводить аналитику в реальном времени через HTTP-запрос?

У нас есть огромное количество строк записей в хранилище таблиц Azure, которые будут перемещены в Azure Data Lake. Для этого сценария это хороший вариант или мы можем использовать решение на основе аналитики из самого хранилища таблиц Azure.

Пожалуйста поделитесь своими мыслями


person Midhun Murali    schedule 18.01.2016    source источник


Ответы (1)


Вы можете хранить свои выходные данные аналитики в Azure Data Lake Store (репозиторий данных, который позволяет хранить все виды данных в их необработанном формате без определения схем) после их обработки с помощью Azure Data Lake Analytics (аналитическая служба, которая позволяет вам запускать задания с наборами данных, не думая о кластерах.)

Как вы сказали: «У нас есть огромное количество строк записей в хранилище таблиц Azure, которые будут перемещены в озеро данных Azure», я думаю, что выполнение аналитики данных, размещенных в хранилище озера данных Azure, намного эффективнее, поскольку оно предлагает неограниченное хранилище с немедленным чтением. / доступ на запись и масштабирование пропускной способности, необходимой для ваших рабочих нагрузок. Он также предлагает небольшие записи с низкой задержкой для больших наборов данных. Поэтому я считаю, что это лучший выбор, чем хранилище таблиц Azure.

person Jamil    schedule 18.01.2016
comment
Итак ... интересно, что ADLS Gen 2 не сразу поддерживает ADLA. Если бы я создавал новое, я мог бы поискать другие альтернативы, такие как Databricks / ADF Data Flows blue-granite.com/blog/ - person mmarie; 26.02.2019
comment
Microsoft также продвигает Azure Databricks вместо ADLA, поэтому я предлагаю взглянуть на нее. - person Jamil; 27.02.2019