Я хотел бы знать, как получить данные из агрегированных журналов? Вот что у меня есть:
- около 30 ГБ несжатых данных журнала ежедневно загружаются в HDFS (и скоро этот объем вырастет примерно до 100 ГБ)
Это моя идея:
- каждую ночь эти данные обрабатываются с помощью Pig
- журналы считываются, разбиваются, и пользовательская UDF извлекает данные, такие как: timestamp
, url
, user_id
(допустим, это все, что мне нужно)
- из записи журнала и загружает ее в HBase (данные журнала будут хранится бесконечно)
Затем, если я хочу знать, какие пользователи видели конкретную страницу в течение заданного периода времени, я могу быстро запросить HBase, не сканируя все данные журнала с каждым запросом (и мне нужны быстрые ответы - минуты приемлемы). И одновременно будет выполняться несколько запросов.
Что вы думаете об этом рабочем процессе? Как вы думаете, есть ли смысл загружать эту информацию в HBase? Какие есть другие варианты и как они соотносятся с моим решением? Я ценю все комментарии/вопросы и ответы. Заранее спасибо.