Почему Hadoop использует hbase, хотя hdfs доступен для хранения?
Мы также можем хранить данные таблицы в виде блоков в hdfs.
Данные хранятся в hbase? Если да, то роль будет выполнять hdfs?
Почему Hadoop использует hbase, хотя hdfs доступен для хранения?
Мы также можем хранить данные таблицы в виде блоков в hdfs.
Данные хранятся в hbase? Если да, то роль будет выполнять hdfs?
HDFS — это распределенная файловая система, которая хорошо подходит для хранения больших файлов. Он предназначен для поддержки пакетной обработки данных, но не обеспечивает быстрый поиск отдельных записей.
HBase построен поверх HDFS, фактически данные хранятся в HDFS и предназначены для предоставления доступа к отдельным строкам данных в больших таблицах.
В целом, различия между HDFS и HBase
HDFS –
Is suited for High Latency operations batch processing
Data is primarily accessed through MapReduce
Is designed for batch processing and hence doesn’t have a concept of random reads/writes
HBase –
Is built for Low Latency operations
Provides access to single rows from billions of records
Data is accessed through shell commands, Client APIs in Java, REST, Avro or Thrift
Hadoop может использовать как HDFS, так и HBase. Вам нужно увидеть разницу между файловой системой (HDFS) и базой данных (HBase), которая предлагает множество функций по сравнению с простой файловой системой (например, произвольный доступ к данным).
Вам понадобится работающая HDFS в обоих случаях, потому что HBase построен на файловой системе HDFS.