Удалить строки из файла

Я делаю некоторую обработку текста в системе unix. У меня есть доступ к командной строке на этой машине, и на ней установлены Python, Perl и программы обработки текста по умолчанию, awk и т. д.

У меня есть текстовый файл, который выглядит следующим образом:

2029754527851451717 
2029754527851451717 
2029754527851451717 
2029754527851451717 
2029754527851451717 
2029754527851451717 1232453488239 Tue Mar  3 10:47:44 2009
2029754527851451717 1232453488302 Tue Mar  3 10:47:44 2009
2029754527851451717 1232453488365 Tue Mar  3 10:47:44 2009
2895635937120524206 
2895635937120524206 
2895635937120524206 
2895635937120524206 
2895635937120524206 
2895635937120524206 
5622983575622325494 1232453323986 Thu Feb 12 15:57:49 2009

В основном это 3 строки: ID ID Дата

Я хочу удалить все строки, в которых нет двух идентификаторов и даты. Таким образом, итоговые результаты будут такими:

2029754527851451717 1232453488239 Tue Mar  3 10:47:44 2009
2029754527851451717 1232453488302 Tue Mar  3 10:47:44 2009
2029754527851451717 1232453488365 Tue Mar  3 10:47:44 2009
5622983575622325494 1232453323986 Thu Feb 12 15:57:49 2009

Ребята, как бы вы предложили это сделать? Всего текстовый файл содержит около 30 000 строк.

Ваше здоровье

Эф

RailsSon 27.04.2009 источник

Ответы (5)

arrow_upward
14
arrow_downward

С awk:

awk 'NF > 2' input_file > output_file

Martin Beckett 27.04.2009

comment

эквивалентный perl: perl -i -wane'print if @F › 6' input_file › output_file - ysth; 27.04.2009

arrow_upward
4
arrow_downward

С Перлом:

perl -ne 'print if /^([0-9]+\s+){2}.+$/' $filename

dsm 27.04.2009

arrow_upward
3
arrow_downward

Просто работаю над своим perl здесь, но это тоже может помочь:

perl -lane 'if (scalar(@F) == 3) { print @F;}' file >> file.out

hyperboreean 27.04.2009

comment

разве это не должно быть scalar(@F) > 3 ? - dsm; 28.04.2009

arrow_upward
2
arrow_downward

С Питоном:

file = open(filename, 'r')
lines = file.readlines()
file.close()

p = re.compile('^\d*$')

for line in lines:
    if not p.search(line): print line,

kgiannakakis 27.04.2009

comment

Вы, вероятно, не хотите читать весь файл из 30000 строк. - chills42; 27.04.2009

comment

@chills42: это мило. максимум 60 байт на строку дает 1,7 Мб. - ysth; 27.04.2009

arrow_upward
-1
arrow_downward

sed '/^[0-9]$/d'  filename

(возможно, придется изменить шаблон, если плохие строки имеют конечные пробелы). Вы также можете использовать команду grep -v, которая пропустит соответствующий шаблон.

Steve B. 27.04.2009

Удалить строки из файла

Ответы (5)

Вопросы по теме