Я борюсь с запросом, который может показаться простым, но который доставляет мне много проблем.
SELECT COUNT(*) FROM mytable where partition_column IN (SELECT MAX(partition_column) FROM mytable )
mytable - это внешняя таблица 2To Hive, разделенная на разделы по столбцу partition_column. Выполнение этого запроса занимает 10 минут ..
Когда я делаю 2 отдельных запроса:
SELECT MAX(partition_column) FROM mytable
> 2020-06-29
SELECT COUNT(*) FROM mytable where partition_column = '2020-06-29'
Работает супер нормально и супер быстро.
Я что-то упускаю ? Спасибо
Я использую Hive 1.2.1 и Hadoop 2.7.3