Обновления хранилища данных Azure IoT

Я создаю решение Azure IoT для своего проекта бизнес-аналитики. На данный момент у меня есть приложение, которое один раз в заданное временное окно отправляет большой двоичный объект .csv в хранилище BLOB-объектов Azure с добавочным номером в имени. Так что через какое-то время у меня в хранилище будут такие файлы, как «data1.csv», «data2.csv», «data3.csv» и т. д.

Теперь мне нужно будет загрузить эти данные в базу данных, которая будет моим хранилищем с использованием задания Azure Stream Analytics. Проблема может заключаться в том, что файлы .CSV будут иметь перекрывающиеся данные. Они будут отправляться каждые 4 часа и содержать данные за последние 24 часа. Мне нужно всегда читать только последний файл (с наибольшим номером) и готовить поиск, чтобы он правильно обновлял данные в хранилище. Как лучше всего заставить Stream Analytics читать только последний файл и обновлять записи в БД?

РЕДАКТИРОВАТЬ: ЧТОБЫ уточнить - я полностью осознаю, что ASA не может выполнять работу ETL. Мой вопрос заключается в том, что было бы лучшим подходом для моего случая с использованием инструментов IoT.


person Chaki    schedule 29.05.2017    source источник
comment
AFAIK ASA предназначен для потоковой передачи данных и не может перематывать или перематывать этот «поток», поэтому будет невозможно устранить перекрытие. Возможно, фабрика данных Azure — лучшее решение. Или сохраните CSV-файлы в Azure Data Lake Store и используйте Azure Data Lake Analytics для создания задания, преобразующего данные.   -  person Peter Bons    schedule 29.05.2017


Ответы (1)


Я бы предложил один из этих двух способов:

Спасибо, JS — Azure Stream Analytics

person Jean-Sébastien    schedule 03.06.2017