Запустите RSelenium параллельно

Как мне запустить RSelenium параллельно?

Ниже приведен пример параллельного использования rvest.

library(RSelenium)
library(rvest)
library(magrittr)
library(foreach)
library(doParallel)

URLsPar <- c("http://www.example.com/", "http://s5.tinypic.com/n392s6_th.jpg", "http://s5.tinypic.com/jl1jex_th.jpg",
         "http://s6.tinypic.com/16abj1s_th.jpg", "http://s6.tinypic.com/2ymvpqa_th.jpg")

(detectCores() - 1) %>%  makeCluster %>% registerDoParallel

ws <- foreach(x = 1:length(URLsPar), .packages = c("rvest", "magrittr", "RSelenium"))  %dopar%  {
      URLsPar[x] %>% read_html %>% as("character")}

stopImplicitCluster()

person dimitris_ps    schedule 15.08.2016    source источник
comment
Откройте отдельный браузер для каждого экземпляра, используя метод open класса remoteDriver. С точки зрения вашего рабочего процесса seleniumPipes может быть подходящим github.com/johndharrison/seleniumPipes   -  person jdharrison    schedule 15.08.2016
comment
У меня есть несколько тысяч URL-адресов, скажем, у меня 3 ядра в registerDoParallel, зачем мне open 3 раза до foreach? Я не знал о seleniumPipes! спасибо   -  person dimitris_ps    schedule 15.08.2016


Ответы (1)


На каждом узле кластера запустите remoteDriver:

library(RSelenium)
library(rvest)
library(magrittr)
library(foreach)
library(doParallel)

URLsPar <- c("http://www.bbc.com/", "http://www.cnn.com", "http://www.google.com",
             "http://www.yahoo.com", "http://www.twitter.com")
appHTML <- c()
# start a Selenium Server
selServ <- startServer()

(cl <- (detectCores() - 1) %>%  makeCluster) %>% registerDoParallel
# open a remoteDriver for each node on the cluster
clusterEvalQ(cl, {
  library(RSelenium)
  remDr <- remoteDriver()
  remDr$open()
})
myTitles <- c()
ws <- foreach(x = 1:length(URLsPar), .packages = c("rvest", "magrittr", "RSelenium"))  %dopar%  {
  remDr$navigate(URLsPar[x])
  remDr$getTitle()[[1]]
}

# close browser on each node
clusterEvalQ(cl, {
  remDr$close()
})

stopImplicitCluster()
# stop Selenium Server
selServ$stop()

> ws
[[1]]
[1] "BBC - Homepage"

[[2]]
[1] "CNN - Breaking News, U.S., World, Weather, Entertainment & Video News"

[[3]]
[1] "Google"

[[4]]
[1] "Yahoo"

[[5]]
[1] "Welcome to Twitter - Login or Sign up"
person jdharrison    schedule 16.08.2016
comment
@jdharrsion: можно ли открыть несколько вкладок в одном экземпляре Firefox с помощью Parallel? Я знаю, что среда во всех параллельных экземплярах разная, но все же хочу знать, возможно ли это. - person Bharath; 17.03.2017
comment
Как этого добиться с помощью docker. Я пробовал приведенный выше код, просто вставив remoteServerAddr = "192.168.99.100", port = 4445L, browserName = "chrome" в скобках для remDr, но он возвращает ошибку. Произошла неизвестная ошибка на стороне сервера при обработке команды. - person Mislav; 21.09.2017