Веб-парсинг: извлечение текста в R с помощью RVEST

Я работаю в колледже, используя R, как я могу извлечь информацию "| 20 ноября 2015 г." с помощью пакета RVEST? Я попытался получить класс "widget-info", но также принес класс "widget-author"

<div class="home-list-content">
            <span class="widget-info">
                <span class="widget-author">
                    Rúben Campanacho
                </span> 
                | 20 de Novembro de 2015
            </span>
            <h2>
                LG Pay é o sistema de pagamentos móveis da LG
            </h2>
        </div>

Мой код:

pagina <- read_html("http://www.tecnologia.com.pt")
    data <- pagina %>% 
      html_nodes(".widget-info") %>%
      html_text() %>%
      as.data.frame()

Результат:

Rúben Campanacho | 20 de Novembro de 2015

Я хочу просто | 20 ноября 2015 г.


person Victor Januário Gianvechio    schedule 20.11.2015    source источник


Ответы (1)


txt <- 'Rúben Campanacho | 20 de Novembro de 2015'

gsub('^((\\w+)[[:space:]]){2}', '', txt)

Возврат:

"| 20 de Novembro de 2015"
person Carl Boneri    schedule 23.09.2016