Я использую rvest
для анализа веб-сайта. Я врезаюсь в стену этими маленькими неразрывными промежутками. Как удалить пробелы, созданные элементом
в проанализированном html-документе?
library("rvest")
library("stringr")
minimal <- html("<!doctype html><title>blah</title> <p> foo")
bodytext <- minimal %>%
html_node("body") %>%
html_text
Теперь я извлек основной текст:
bodytext
[1] " foo"
Однако я не могу удалить этот надоедливый пробел!
str_trim(bodytext)
gsub(pattern = " ", "", bodytext)