Вопросы по теме 'crawler4j'

Почему использование префикса hdfs:// для пути к файлу позволяет открыть файл?
Я пишу работу Hadoop, которая сканирует страницы. Библиотека, которую я использую, использует файловую систему для хранения данных сканирования во время сканирования. Я был уверен, что библиотеку придется модифицировать для использования HDFS,...
1782 просмотров
schedule 24.06.2022

Выборочно отключить журнал отладки log4j в консоли Play
У меня есть приложение Play 2.0, я запустил play console из командной строки. Где-то в одной из библиотек, которые я использую, он использует log4j и начал передавать вывод отладки для [crawler4j][1] , я пытаюсь выяснить, как выборочно отключить...
2196 просмотров

Crawler4j не работает для URL-адресов https
Я разрабатываю приложение Grails, используя Crawler4j. Я знаю, что это старый вопрос, и я нашел это решение здесь . Я попробовал предложенное решение, но не уверен, где хранить другие файлы fetcher и mockssl java. Кроме того, я не уверен,...
623 просмотров
schedule 12.01.2023

Повышение эффективности, масштабируемости Crawler4j-Crawler
Я использую краулер Crawler4j для сканирования некоторых доменов. Теперь я хочу повысить эффективность краулера, я хочу, чтобы мой краулер использовал всю мою пропускную способность и сканировал как можно больше URL-адресов за заданный период времени....
2012 просмотров
schedule 27.06.2022

Перенос одного объекта между классами с помощью crawler4j
Я простой веб-сканер, построенный с использованием стандартных блоков Crawler4J. Я пытаюсь создать словарь, когда мой сканер сканирует, а затем передать его моему основному (контроллеру), когда он создает и анализирует текст. Как я могу это сделать,...
169 просмотров
schedule 20.06.2022

Клиент Feign всегда выдает исключение нулевого указателя в приложении Spring boot/Crawler4j.
Я запускаю экземпляр Crawler4j в загрузочном приложении Spring, и мой клиент OpenFeign всегда равен нулю. public class MyCrawler extends WebCrawler { @Autowired HubClient hubClient; @Override public void visit(Page page) { // Lots of...
1441 просмотров
schedule 22.07.2023