Согласно примечаниям к выпуску Hadoop 3.x, они ввели кодирование Erasure для решения проблем с хранилищем.
Erasure coding — это метод надежного хранения данных со значительной экономией места по сравнению с репликацией. Стандартные кодировки, такие как Reed-Solomon (10,4), имеют 1,4-кратные накладные расходы по пространству по сравнению с 3-кратными накладными расходами стандартной репликации HDFS.
Поскольку кодирование стирания создает дополнительные накладные расходы во время реконструкции и в основном выполняет удаленное чтение, оно традиционно использовалось для хранения более холодных данных, к которым реже обращаются. При развертывании этой функции пользователям следует учитывать накладные расходы сети и ЦП на стирающее кодирование.
Я ищу образцы файлов конфигурации для того же самого.
Кроме того, даже после настройки политики ec и включения ее с помощью hdfs ec-enablePolicy
, работает ли политика только для холодных файлов или по умолчанию она реализована для хранения всех файлов hdfs?