Выделение определенных числовых значений в тексте

У меня есть значительный объем текста, который нужно просмотреть в текстовом CSV-файле с различными свойствами, чтобы найти, что на самом деле представляет собой числовое значение квадратного метра свойств. Например:

string <- "This is a wonderful 120 sqm flat with a stunning view"

Я знаю, что могу использовать следующее для извлечения числового значения:

sqm <- as.numeric(gsub("\\D", "", string))

который возвращает числовой вектор '120', как и должно быть. Однако мне было интересно, есть ли более сложный способ сделать это, учитывая, что в тексте могут быть другие нерелевантные числовые значения?

Есть ли способ найти «кв. м» и вернуть предшествующие ему числа? Большое спасибо за любые комментарии.

r regex stringr

RichS 29.04.2015 источник

Ответы (1)

arrow_upward
2
arrow_downward

Я считаю, что это регулярное выражение должно работать:

library(stringr)
##
string <- "This is a wonderful 120 sqm flat with a stunning view"
re <- "((\\d+)(?=\\s?sqm))"
##
R> str_extract(string, perl(re))
[1] "120"

nrussell 29.04.2015

Выделение определенных числовых значений в тексте

Ответы (1)

Вопросы по теме