Я обнаружил краулер Storm совсем недавно, и, исходя из прошлого опыта, исследований и работы с разными краулерами, я считаю этот проект, основанный на Apache Storm, довольно надежным и подходящим для многих вариантов использования и сценариев.
Я прочитал несколько руководств и протестировал Storm Crawler с некоторыми базовыми настройками. Я хотел бы использовать краулер в своем проекте, но есть определенные вещи, которые я не уверен, способен ли краулер делать или даже подходит ли он для таких случаев использования.
Я хотел бы выполнять небольшие и большие рекурсивные обходы многих веб-доменов с определенными настройками скорости и ограничением количества получаемых URL-адресов. Сканирование можно запустить отдельно в любое время с разными настройками (разная скорость, игнорирование robots.txt для этого домена, игнорирование внешних ссылок).
Вопросов:
- Подходит ли штормовой краулер для такого сценария?
- Могу ли я установить ограничение на максимальное количество страниц, загружаемых поисковым роботом?
- Могу ли я установить ограничения на количество загружаемых страниц для разных доменов?
- Могу ли я отслеживать ход сканирования отдельных доменов отдельно?
- Могу ли я установить параметры динамически без необходимости загружать измененную топологию в шторм?
- Можно ли приостановить или прекратить сканирование (для определенного домена)?
- Обычно Storm Crawler работает как одна развернутая топология?
Я предполагаю, что на некоторые из этих вопросов ответ может заключаться в настройке или написании моих собственных болтов или носиков. Но я бы предпочел не изменять Fetcher Bolt или основную логику краулера, поскольку это означало бы, что я разрабатываю другого краулера.
Спасибо.