Проблема с регулярным выражением команды Unix awk

У меня есть такие данные:

# data_display  

ab as we hj kl  
12 34 45 83 21  
45 56 98 45 09

Мне нужен только первый столбец и только строки, начинающиеся с цифр.

Я сейчас использую:

# data_display | awk '{ print $1 }' | grep "^[0-9]"

Есть ли способ оптимизировать его, например, с помощью регулярного выражения в самом awk?

Я очень новичок в awk.

Спасибо.

kk. 04.12.2009 источник

Ответы (6)

arrow_upward
6
arrow_downward

В awk регулярные выражения стоят перед оператором печати, включая фигурные скобки. Итак, в вашем случае вызов awk будет:

awk '/^[0-9]/ {print $1}'

LiraNuna 04.12.2009

arrow_upward
2
arrow_downward

Вы можете поместить регулярное выражение grep непосредственно в команду awk:

data_display | awk '/^[0-9]/{ print $1 }'

rsp 04.12.2009

arrow_upward
1
arrow_downward

Вы можете использовать cut вместо awk:

$ data_display | grep '^[0-9]' | cut -f 1 -d ' '

Svante 04.12.2009

comment

зачем использовать 2 команды, когда 1 уже делает это... производя накладные расходы - ghostdog74; 04.12.2009

comment

levislevis85, вы всегда должны проверять свои предположения. awk — полноценный язык программирования, cut и grep — более простые инструменты. Вы проверили, какие накладные расходы больше? Я просто указываю на варианты. - Svante; 04.12.2009

comment

Во всяком случае, я думаю, что cut появляется, когда awk не может использовать механизм $1. Самое смешное, что перемещение регулярного выражения из внешнего grep в awk-скрипт почти ничего не меняет, поэтому накладные расходы на дополнительные команды кажутся незначительными. - Svante; 04.12.2009

comment

Я проголосовал за этот, потому что он сначала заботится обо всех строках, которые ему НЕ нужно обрабатывать, а затем использует более простой разрез по сложному awk для выполнения работы. Это вопрос, будет ли вызов двух простых программ быстрее, чем одна сложная, я предполагаю, что это зависит от самого набора данных. - Marcin; 25.12.2009

arrow_upward
1
arrow_downward

для большей точности проверьте фактические числа (если у вас есть данные, такие как 1a, которые не являются числами, но будут соответствовать решению, данному до сих пор.

$ awk '$1+0==$1' file

awk '$1 ~/^[0-9]+$/' file

ghostdog74 04.12.2009

arrow_upward
1
arrow_downward

вырезать -d' ' -f1 имя файла | grep '^[0-9]'

это должно быть самым быстрым. так как awk просматривает и классифицирует файл как записи и поля.

здесь мы минимизируем количество данных, которые необходимо обработать grep, вырезая первое поле.

Venkataramesh Kommoju 25.12.2009

arrow_upward
0
arrow_downward

Что вы можете:

pax> echo 'ab as we hj kl  
12 34 45 83 21  
45 56 98 45 09' | awk '/^[0-9]/ {print $1}'

дает тебе:

12
45

Awk команды состоят из фактического шаблона для сопоставления и команды для запуска. Если шаблона нет, команда выполняется для всех строк.

paxdiablo 04.12.2009

Проблема с регулярным выражением команды Unix awk

Ответы (6)

Вопросы по теме