Можно ли использовать Apache Sqoop и Flume взаимозаменяемо?

Я новичок в больших данных. Из некоторых ответов на В чем разница между Flume и Sqoop? , и Flume, и Sqoop могут извлекать данные из источника и отправлять их в Hadoop. Кто-нибудь может указать точно, где используется flume и где sqoop? Можно ли использовать оба для одних и тех же задач?


person Shoreki    schedule 27.11.2014    source источник


Ответы (1)


Flume и Sqoop предназначены для работы с различными вид источников данных.

Sqoop работает с любой системой РСУБД, которая поддерживает подключение JDBC. С другой стороны, Flume хорошо работает с источниками потоковых данных, такими как данные журнала, которые постоянно генерируются в вашей среде.

Конкретно,

  • Sqoop можно использовать для импорта/экспорта данных в/из систем РСУБД, таких как Oracle, MS SQL Server, MySQL, PostgreSQL, Netezza, Teradata и некоторых других, которые поддерживают подключение JDBC.
  • Flume could be used to ingest high throughput data from sources like below and insert into destinations (sinks) below.
    • Commonly used flume sources:
      • Spooling directory - directory in which lot of files are being created, used mostly for collecting and aggregating log data
      • JMS — собирайте метрики из систем на основе JMS
      • И многое другое
    • Commonly used flume sinks:

Нет, оба инструмента нельзя использовать для решения одной и той же задачи, например, flume нельзя использовать с базами данных, а sqoop нельзя использовать с потоковыми источниками данных или плоскими файлами.

Если вам интересно, у Flume также есть альтернатива, которая делает то же самое, что и chukwa.

person Ashrith    schedule 27.11.2014
comment
Большое спасибо @Ашрит - person Shoreki; 27.11.2014
comment
@Ahrith Используя Flume, мы можем передавать данные из СУБД в HDFS (может быть, это не основная цель Flume) toadworld.com/platforms/oracle/w/wiki/ - person Ram; 10.07.2017