По мануалу не понять, как справиться с этой проблемой с помощью syncsort (мы нашли решения с dfsort, которые не помогли). Из-за программной ошибки (которую вовремя не исправить: программист, тест, проверка качества, деплоймент...) мы получили дубликаты записей в файле (FB/LRECL 250), где потом
- строка заголовка существует
- последующие повторяющиеся строки данных, которые должны быть опущены, но одна уникальная
- строки данных не должны быть отсортированы (из-за обязательной логической связи некоторых записей)
- трейлер включает количество строк данных.
Файл нельзя редактировать вручную из-за его размера (>2 млн. записей).
пример файла:
HEADER xxxx
cccc
bbbb 123
bbbb 123
bbbb 123
dddd
aaaa 123
aaaa 123
aaaa
TRAILER COUNT: 8
Ожидаемый выходной файл:
HEADER xxxx
cccc
bbbb 123
dddd
aaaa 123
aaaa
TRAILER COUNT: 5
Таким образом, выходной файл вообще не сортируется, пропущенные записи
bbbb 123 (omitted)
bbbb 123 (omitted)
aaaa 123 (omitted)
вообще не нужны и могут уйти прямо в нирвану.
(Я был бы даже счастлив, если бы в решении не было заголовка/трейлера, поскольку я мог бы легко объединить сгенерированные вручную строки в последующем задании.)
Спасибо за вашу помощь!