Как настроить Apache Flume для получения данных из Twitter за определенный период?

У меня есть кластер hadoop и поток apache для интеграции данных из твиттера в HDFS, он по умолчанию извлекает данные в хронологическом порядке, так как самый последний твит будет извлечен первым и аналогичным образом, и теперь у меня есть вариант использования для получения определенных данных из твиттера за определенный период, скажем, месяц февраль 2013 года. Пожалуйста, дайте мне знать, нужно ли установить какую-либо конфигурацию или свойство в Flume или Twitter Handle.

Заранее спасибо.


person Amol Fasale    schedule 23.08.2013    source источник


Ответы (1)


Возможно, вы захотите использовать настраиваемый источник для Flume.

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/

TwitterSource, упомянутый в приведенной выше ссылке, поможет вам получить данные Twitter на основе ключевого слова.

person vishnu viswanath    schedule 04.09.2013