Надежно ли сохранять ваши данные в Hadoop и использовать их с помощью Spark/Hive и т. д.?
Каковы преимущества использования HDFS в качестве основного хранилища?
Надежно ли сохранять ваши данные в Hadoop и использовать их с помощью Spark/Hive и т. д.?
Каковы преимущества использования HDFS в качестве основного хранилища?
HDFS настолько надежен, насколько надежны узлы Namenode, поддерживающие метаданные файла. Вам лучше настроить Namenode HA и часто делать их снимки, а также хранить их вне HDFS.
Если все Namenodes недоступны или их хранилище метаданных повреждено, вы не сможете прочитать данные узла данных HDFS, несмотря на то, что эти файлы сами по себе в порядке и имеют высокую доступность.
Вот несколько рекомендаций по хранению данных в Hive и HDFS (и/или HBase).
Улей:
HDFS/HBase:
Похожая запись:
Когда использовать Hadoop, HBase, Hive и Pig?