Как правильно зациклить обнаруженные URL-адреса, чтобы получить их?

Я начал с топологии по умолчанию, но хочу выполнить рекурсивное сканирование. Поэтому мне нужно изменить файл потока, чтобы зациклить обнаруженные URL-адреса обратно в сборщик, и я не уверен, как лучше всего это сделать?

Есть ли хороший образец того, как это сделать? Может быть, вы работаете с Elasticsearch?

С уважением, Крис

web-crawler apache-storm stormcrawler

chris_l 09.07.2019 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вам необходимо сохранить информацию об URL-адресах при выполнении рекурсивного обхода. Обратной связи с Fetcher недостаточно, поскольку он не будет учитывать дубликаты и не даст вам никакого контроля над планированием.

Во внешних модулях доступно несколько опций, одним из них является Elasticsearch, вы также можете использовать SOLR или SQL-сервер.

См. наш канал Youtube, чтобы узнать, как использовать SC с ES.

Существует реализация StatusUpdater, которая возвращает обнаруженные URL-адреса обратно в MemorySpout, но это просто полезно для тестирования/отладки в локальном режиме.

Julien Nioche 09.07.2019

Как правильно зациклить обнаруженные URL-адреса, чтобы получить их?

Ответы (1)

Вопросы по теме