Delta Ingestion в друиде из s3

Я делаю POC над друидом. Я загружаю данные из s3, это занимает ~ 7 минут для 289 МБ данных с конфигурациями по умолчанию. Теперь я установил maxNumConcurrentSubTasks: 2 и appendToExisting: true. Когда вы пытаетесь загрузить те же данные в druid из s3, это занимает почти столько же времени, как указано выше. Я ожидал гораздо меньшего времени, так как я не обновлял никаких данных, и я пытаюсь добавить вместо того, чтобы перезаписать все.

Я неправильно понимаю концепцию добавления в druid, а также есть ли какой-либо оптимальный способ сделать дельта-загрузку из s3? Любые зацепки будут оценены.


person unknown    schedule 18.08.2020    source источник


Ответы (1)


В консоли убедитесь, что подзадачи выполняются одновременно. Возможно, вам придется изменить свой druid.worker.capacity, чтобы сообщить Druid, что для приема доступно больше ядер.

См. https://druid.apache.org/docs/latest/configuration/index.html#middlemanager-configuration.

Об обновлениях и принципах работы стоит проверить этот документ. https://druid.apache.org/docs/latest/ingestion/data-management.html#updating-existing-data

Также есть это полезное руководство: https://druid.apache.org/docs/latest/tutorials/tutorial-update-data.html

The Awesome Itai написал сообщение в блоге о удержании (что в любом случае хорошее чтение), но в нем есть немного о приеме дельты ... Я никогда не пробовал его трюк, но вы могли бы провести несколько экспериментов и сообщить нам всем, что вы найти: D: D

https://medium.com/nmc-techblog/data-retention-and-deletion-in-apache-druid-74ffd12398a8

person Peter Marshall    schedule 24.09.2020