Извлечение и вычисление ключевых слов из нескольких URL-адресов

У меня есть проект по извлечению ключевых слов из URL-адресов, сгенерированных из поискового запроса с использованием R. Затем определите наиболее часто встречающиеся ключевые слова, вычислите TF-IDF и т. д. для этих извлеченных ключевых слов.

Будучи новичком в R, я попробовал следующий подход. Тогда я использовал две разные ссылки:

ШАГ 1. Я извлек ключевые слова, используя следующий код: Очистка веб-страниц и анализ текста в R. Я запускал этот код дважды, потому что я извлекаю 2 URL-адреса, изменяя ссылки в getURL() в коде. РЕЗУЛЬТАТ: у меня 1 dtm для каждого URL извлечено.

ШАГ 2. Чтобы вычислить tf-idf, я проанализировал и использовал главу 3 в этом документе: http://tidytextmining.com/tfidf.html. Я сформировал свои данные на основе документа:

  1. Преобразование каждого dtm в кадр данных
  2. Добавьте новые столбцы «Имя сайта/URL» и «Общее количество терминов» в фреймы данных.
  3. Добавьте фрейм данных link2 в link1, так как они имеют одинаковые столбцы.
  4. Затем я использовал формулу в документе для вычисления «частоты терминов» и функцию bind_tf_idf для вычисления tf-idf.

Цель состоит в том, чтобы извлечь ключевые слова из URL-адресов, сгенерированных из поискового запроса. Я уже создал URL-адреса с помощью следующего кода: Как получить результаты поиска Google. (фрагмент кода см. ниже)

После извлечения определите количество вхождений этих ключевых слов, наиболее часто используемые ключевые слова, а затем вычислите TF-IDF этих ключевых слов.

Как новичок, это лучшее, что я мог придумать (хотя я действительно пытался), но я определенно думаю, что для этого есть лучший подход, чем выполнение шага 1 и шага 2 для каждого URL-адреса.

Мы очень ценим вашу помощь и/или отзывы по этому поводу.

> search.term <- "tour package"
> quotes <- "FALSE"
> search.url <- getGoogleURL(search.term=search.term, quotes=quotes)
> links <- getGoogleLinks(search.url)
> links <- gsub('/url\\?q=','',sapply(strsplit(links[as.vector(grep('url',links))],split='&'),'[',1)) 
> links
 [1] "https://www.makemytrip.com/holidays-india/"                 
 [2] "https://www.makemytrip.com/holidays-india/"                 
 [3] "https://www.yatra.com/india-tour-packages"                   
 [4] "http://www.thomascook.in/tcportal/international-holidays"   
 [5] "https://www.yatra.com/holidays"                             
 [6] "https://www.travelguru.com/holiday-packages/domestic-packages.shtml"
 [7] "https://www.chanbrothers.com/package"                       
 [8] "https://www.tourmyindia.com/packagetours.html"               
 [9] "http://traveltriangle.com/tour-packages"                     
[10] "http://www.coxandkings.com/bharatdeko/"                     
[11] "https://www.sotc.in/india-tour-packages" 

person gynnrmn    schedule 07.10.2017    source источник