У меня есть случай использования, когда исходная таблица в Hive обновляется ежедневно таким образом, что обновляются все данные. В первый день мы загружаем всю таблицу, но со второго дня нас интересуют только те строки, чья «Дата последнего изменения» была обновлена, чтобы отразить дату предыдущего дня.
Предлагаемое решение состоит в том, чтобы сохранить MAX даты последнего изменения в день 1 и день 2, сравнить все строки, дата последнего изменения которых больше, чем сохраненная дата, и обработать только эти строки.
Каков наилучший способ создания, хранения и извлечения этой даты последнего изменения на ежедневной основе? Кроме того, разные таблицы будут иметь разные даты, и в идеале я бы хотел что-то с Table_Name, Last_Modified_Date
, если нет лучшего способа сделать это.
Пожалуйста помоги. Спасибо.