Добавление разделов во внешнюю таблицу в улье занимает много времени

Я хотел бы знать, как лучше всего добавить разделы во внешнюю таблицу. У меня есть внешняя таблица на S3 в улье с разделом как vehicle = / date = / hr =


Теперь новый автомобиль можно добавить в любое время суток, и будут автомобили, которые не будут иметь данных пару часов в день или пару дней.

Несколько возможных решений - таблица msck reapir: это занимает много времени - Добавить раздел с помощью скрипта: я могу не знать, когда будет создано новое транспортное средство или какие часовые данные отсутствуют для транспортного средства

Как вообще люди решают эту проблему добавления разделов во внешние таблицы


person Nipun    schedule 11.09.2019    source источник


Ответы (1)


msck reapir table - правильный способ сделать это. Если он работает слишком медленно, попробуйте отключить автосбор статистики перед восстановлением таблицы:

set hive.stats.autogather=false;

Вы можете снова включить его после восстановления разделов.

Скорее всего, вы столкнулись с HIVE-18743 или связанной с ним ошибкой. В моем случае это помогло.

person leftjoin    schedule 11.09.2019
comment
Да, таблица восстановления msck - это накладные расходы. Теперь я делаю добавление раздела для каждого события файла, созданного с использованием лямбда-функции. - person Nipun; 14.09.2019
comment
@Nipun Да, Лямбда может быть лучшим решением - person leftjoin; 14.09.2019