У меня есть проект по извлечению ключевых слов из URL-адресов, сгенерированных из поискового запроса с использованием R. Затем определите наиболее часто встречающиеся ключевые слова, вычислите TF-IDF и т. д. для этих извлеченных ключевых слов.
Будучи новичком в R, я попробовал следующий подход. Тогда я использовал две разные ссылки:
ШАГ 1. Я извлек ключевые слова, используя следующий код: Очистка веб-страниц и анализ текста в R. Я запускал этот код дважды, потому что я извлекаю 2 URL-адреса, изменяя ссылки в getURL() в коде. РЕЗУЛЬТАТ: у меня 1 dtm для каждого URL извлечено.
ШАГ 2. Чтобы вычислить tf-idf, я проанализировал и использовал главу 3 в этом документе: http://tidytextmining.com/tfidf.html. Я сформировал свои данные на основе документа:
- Преобразование каждого dtm в кадр данных
- Добавьте новые столбцы «Имя сайта/URL» и «Общее количество терминов» в фреймы данных.
- Добавьте фрейм данных link2 в link1, так как они имеют одинаковые столбцы.
- Затем я использовал формулу в документе для вычисления «частоты терминов» и функцию bind_tf_idf для вычисления tf-idf.
Цель состоит в том, чтобы извлечь ключевые слова из URL-адресов, сгенерированных из поискового запроса. Я уже создал URL-адреса с помощью следующего кода: Как получить результаты поиска Google. (фрагмент кода см. ниже)
После извлечения определите количество вхождений этих ключевых слов, наиболее часто используемые ключевые слова, а затем вычислите TF-IDF этих ключевых слов.
Как новичок, это лучшее, что я мог придумать (хотя я действительно пытался), но я определенно думаю, что для этого есть лучший подход, чем выполнение шага 1 и шага 2 для каждого URL-адреса.
Мы очень ценим вашу помощь и/или отзывы по этому поводу.
> search.term <- "tour package"
> quotes <- "FALSE"
> search.url <- getGoogleURL(search.term=search.term, quotes=quotes)
> links <- getGoogleLinks(search.url)
> links <- gsub('/url\\?q=','',sapply(strsplit(links[as.vector(grep('url',links))],split='&'),'[',1))
> links
[1] "https://www.makemytrip.com/holidays-india/"
[2] "https://www.makemytrip.com/holidays-india/"
[3] "https://www.yatra.com/india-tour-packages"
[4] "http://www.thomascook.in/tcportal/international-holidays"
[5] "https://www.yatra.com/holidays"
[6] "https://www.travelguru.com/holiday-packages/domestic-packages.shtml"
[7] "https://www.chanbrothers.com/package"
[8] "https://www.tourmyindia.com/packagetours.html"
[9] "http://traveltriangle.com/tour-packages"
[10] "http://www.coxandkings.com/bharatdeko/"
[11] "https://www.sotc.in/india-tour-packages"