Как правильно зациклить обнаруженные URL-адреса, чтобы получить их?

Я начал с топологии по умолчанию, но хочу выполнить рекурсивное сканирование. Поэтому мне нужно изменить файл потока, чтобы зациклить обнаруженные URL-адреса обратно в сборщик, и я не уверен, как лучше всего это сделать?

Есть ли хороший образец того, как это сделать? Может быть, вы работаете с Elasticsearch?

С уважением, Крис


person chris_l    schedule 09.07.2019    source источник


Ответы (1)


Вам необходимо сохранить информацию об URL-адресах при выполнении рекурсивного обхода. Обратной связи с Fetcher недостаточно, поскольку он не будет учитывать дубликаты и не даст вам никакого контроля над планированием.

Во внешних модулях доступно несколько опций, одним из них является Elasticsearch, вы также можете использовать SOLR или SQL-сервер.

См. наш канал Youtube, чтобы узнать, как использовать SC с ES.

Существует реализация StatusUpdater, которая возвращает обнаруженные URL-адреса обратно в MemorySpout, но это просто полезно для тестирования/отладки в локальном режиме.

person Julien Nioche    schedule 09.07.2019