Как хранить твиты в HDFS?

Как сохранить определенные твиты веб-сайта в HDFS?

Предположим, есть один веб-сайт www.abcd.com, и я хочу собрать все твиты пользователей для этого веб-сайта и сохранить их в HDFS или Hive.

Flume и sqoop также полезны для хранения данных.

поэтому кто-нибудь, пожалуйста, подскажите, как flume и sqoop работают при хранении твитов в HDFS?


person Nirali    schedule 19.09.2013    source источник


Ответы (1)


Sqoop не был создан для этой цели. Flume используется для таких нужд. Вы можете написать свой собственный источник Flume, который будет извлекать твиты и выгружать их в вашу HDFS. См. это например. В нем показано, как использовать Flume для сбора данных из Twitter Streaming API и пересылки их в HDFS.

Дополнительную информацию можно найти в официальной документации.

person Tariq    schedule 19.09.2013