Я сделал ошибку и добавил несколько сотен файлов в таблицу, разбитую по дате. Я могу видеть, какие файлы новые (это те, которые я хочу удалить). Большинство случаев, которые я видел здесь, связаны с удалением файлов старше определенной даты, но я хочу удалить только самые последние файлы.
В течение одного дня у меня может быть 3 файла как таковых, и я хочу удалить только новый файл. Я могу сказать, что это новое, по отметке времени обновления, когда я использую hadoop fs -ls
/this/is/my_directory/event_date1_newfile_20191114
/this/is/my_directory/event_date1_oldfile_20190801
/this/is/my_directory/event_date1_oldfile_20190801
У меня много дат, поэтому мне придется завершить это для event_date2, event_date3 и т. Д. И т. Д., Всегда удаляя new_file_20191114 из каждой даты.
Старые даты относятся к августу 2019 года, а мои новые файлы были обновлены вчера, 14.11.19.
Я чувствую, что должно быть простое / быстрое решение для этого, но мне трудно найти обратный случай из того, о чем спрашивает большинство людей.
hdfs dfs -ls /tmp | sort -k6,7
из этого сообщения: stackoverflow.com/questions/37022749/ Итак, я теперь у меня есть список конкретных файлов, которые мне нужно удалить, и теперь я пытаюсь найти способ массового удаления заранее созданного списка файлов. - person phenderbender   schedule 15.11.2019