Метод сортировки и подсчета быстрее, чем файл cat | сортировать | уникальный -c

Я просто хочу подсчитать, сколько раз имена полей A, B или C появляются в файле журнала. Список полей должен быть динамическим. Файлы журналов «большие», около 500 мегабайт каждый, поэтому сортировка каждого файла занимает некоторое время. Есть ли более быстрый способ подсчета после того, как я сделаю разрез и получу файл с одним полем в строке?

 cat /bb/logs/$dir/$file.txt | tr -s "|" "\n" | cut -d "=" -f 1 | sort | uniq -c > /data/logs/$dir/$file.txt.count

Я точно знаю, что эта часть работает быстро. Я с уверенностью вижу, что он увязает в сортировке.

cat /bb/logs/$dir/$file.txt | tr -s "|" "\n" | cut -d "=" -f 1

После того, как я запустил нарезку, ниже приведен пример вывода, конечно, файл намного длиннее.

Apple
Banana
Grape
Pear
Grape

После сортировки и подсчета я получаю

 1 Apple
 1 Banana 
 1 Pear
 2 Grape

Проблема в том, что сортировка моих фактических данных занимает слишком много времени. Я думаю, что было бы быстрее> выводить вырезку в файл, но не уверен, что это самый быстрый способ подсчета уникальных записей в «большом» текстовом файле.

sorting cat uniq

personalt 07.03.2012 источник

comment

разместите некоторые образцы данных и ур желаемого o/p - Teja 08.03.2012

comment

ладно.. все будет хорошо - Teja 08.03.2012

comment

быстрее, чем cat file | sort sort file. - Benoit 04.06.2012

Ответы (1)

arrow_upward
3
arrow_downward

AWK может делать это довольно хорошо без сортировки, попробуйте это, должно работать лучше;

cat test.txt | tr -s "|" "\n" | cut -d "=" -f 1 |
   awk '{count[$1]++}END{for(c in count) print c,"found "count[c]" times."}'

Joachim Isaksson 07.03.2012

comment

Спасибо .. попробую это с набором образцов через несколько минут - personalt; 08.03.2012

Метод сортировки и подсчета быстрее, чем файл cat | сортировать | уникальный -c

Ответы (1)

Вопросы по теме