Как настроить Apache Flume для получения данных из Twitter за определенный период?

У меня есть кластер hadoop и поток apache для интеграции данных из твиттера в HDFS, он по умолчанию извлекает данные в хронологическом порядке, так как самый последний твит будет извлечен первым и аналогичным образом, и теперь у меня есть вариант использования для получения определенных данных из твиттера за определенный период, скажем, месяц февраль 2013 года. Пожалуйста, дайте мне знать, нужно ли установить какую-либо конфигурацию или свойство в Flume или Twitter Handle.

Заранее спасибо.

Amol Fasale 23.08.2013 источник

Ответы (1)

arrow_upward
1
arrow_downward

Возможно, вы захотите использовать настраиваемый источник для Flume.

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/

TwitterSource, упомянутый в приведенной выше ссылке, поможет вам получить данные Twitter на основе ключевого слова.

vishnu viswanath 04.09.2013

Как настроить Apache Flume для получения данных из Twitter за определенный период?

Ответы (1)

Вопросы по теме