Мне нужно извлечь ключевые слова, заголовок и описание длинного списка URL-адресов (первоначально ~ 250 000 URL-адресов в день, а затем ~ 15 000 000 URL-адресов в день).
Как бы вы порекомендовали это выполнить? Желательно и решение, которое можно было бы расширить до 15 000 000 событий в день. Желательно на Scala или Java
До сих пор я смотрел на:
- Спрей — я еще не очень хорошо знаком со Спрей, поэтому не могу его оценить. Это полезная структура для моей задачи?
- Vertx — я работал с Vertx раньше, если это хороший фреймворк, не могли бы вы объяснить, как лучше всего реализовать его с помощью Vertx?
- Скребок Scala — вообще с ним не знаком. Это хорошая структура для варианта использования и нагрузок, которые мне нужны?
- Nutch — я не уверен, насколько хорошо это будет, если я захочу использовать его внутри своего кода. Также я не уверен, что мне нужен Solr для моего варианта использования. У кого-нибудь был опыт с ним?
Я буду рад услышать о других вариантах, если вы считаете, что они лучше
Я знаю, что, вероятно, могу копаться в каждом из этих решений и решать, хорошо оно или нет, но кажется, что вариантов так много, что любое направление будет оценено.
заранее спасибо
play-ws
предлагает довольно простой в использовании HTTP-клиент) иjsoup
. Это было не так уж плохо. *play-ws: playframework.com/documentation/2.4.x/ScalaWS *jsoup: jsoup.org - person mfirry   schedule 08.02.2016