Я изменю сайт, чтобы сделать этот вопрос лучше. Все еще сталкиваюсь с похожими проблемами, которые не могут использовать только пакет rvest, и, возможно, ответ будет легче получить с помощью RSelenium. Сайт: http://ravimaailma.fi/cg/tulokset/20/ и я хочу чтобы получить ссылки из основной статьи, которые направят меня к результатам отдельных гонок. Ссылки выглядят примерно так: http://ravimaailma.fi/article/tulokset/pori-18-11-2017-tulokset/8718/
Я пытаюсь использовать простой Rvest, поскольку думал, что здесь все, что нужно. SelectorGadget дает ссылкам CSS как .article-title a
, поэтому мой код просто
url %>%
read_html() %>%
html_nodes(".article-title a") %>%
html_text()
Это ничего не вернет. Веб-сайт загружает больше результатов при прокрутке вниз, но я думал, что по крайней мере получу первые результаты. Ниже приведены некоторые ссылки, и ссылки 28:32 выглядят многообещающе, но я думаю, что это ссылки с боковой панели, а не из статьи.
url %>%
read_html() %>%
html_nodes("a") %>%
html_attr("href")
Что я здесь делаю неправильно, и может ли RSelenium мне помочь?
RSelenium
. Я сам недавно начал, и эти два руководства очень помогли, если вы их не видели. - person Val   schedule 09.08.2017docker run hello-world
выполняется правильно. Если это так, запустите образselenium
по вашему выбору (мой был Firefox) с отладкой, чтобы вы могли просмотреть его через VNC. При установке соединения не забудьте указать браузер, который вы собираетесь использовать. - person Val   schedule 09.08.2017