Я использую краулер Crawler4j для сканирования некоторых доменов. Теперь я хочу повысить эффективность краулера, я хочу, чтобы мой краулер использовал всю мою пропускную способность и сканировал как можно больше URL-адресов за заданный период времени. Для этого я беру следующий настройки:-
- Я увеличил нет. потоков сканера до 10 (используя эту функцию ContentCrawler ('classfilename', 10);)
- Я уменьшил задержку вежливости до 50 мс (используя Crawlconfig.setpolitenessdelay (50);)
- Я даю глубину сканирования как 2 (используя Crawlconfig.setMaxDepthOfCrawling (2))
Теперь я хочу знать:
1) Есть ли какие-либо побочные эффекты при таких настройках.
2) Есть ли что-нибудь, что я должен сделать помимо этого, чтобы улучшить скорость моего краулера?
3) Может ли кто-нибудь сказать мне максимальные пределы для каждой настройки (например: - Максимальное количество потоков, поддерживаемых crawler4j за раз и т. Д.). Потому что я уже прошел через код Crawler4j, но я не нашел никаких ограничений где-либо.
4) Как сканировать домен, не проверяя его файл robots.txt. Поскольку я понял, что crawler4j сначала проверяет файл robots.txt домена перед сканированием. Я не хочу этого !!
5) Как работает сборщик страниц (пожалуйста, объясните это вкратце)
Любая помощь приветствуется, и, пожалуйста, успокойтесь, если вопрос глупый.