Вопросы по теме 'crawler4j'
Почему использование префикса hdfs:// для пути к файлу позволяет открыть файл?
Я пишу работу Hadoop, которая сканирует страницы. Библиотека, которую я использую, использует файловую систему для хранения данных сканирования во время сканирования. Я был уверен, что библиотеку придется модифицировать для использования HDFS,...
1782 просмотров
schedule
24.06.2022
Выборочно отключить журнал отладки log4j в консоли Play
У меня есть приложение Play 2.0, я запустил play console из командной строки. Где-то в одной из библиотек, которые я использую, он использует log4j и начал передавать вывод отладки для [crawler4j][1] , я пытаюсь выяснить, как выборочно отключить...
2196 просмотров
schedule
30.06.2022
Crawler4j не работает для URL-адресов https
Я разрабатываю приложение Grails, используя Crawler4j.
Я знаю, что это старый вопрос, и я нашел это решение здесь .
Я попробовал предложенное решение, но не уверен, где хранить другие файлы fetcher и mockssl java.
Кроме того, я не уверен,...
623 просмотров
schedule
12.01.2023
Повышение эффективности, масштабируемости Crawler4j-Crawler
Я использую краулер Crawler4j для сканирования некоторых доменов. Теперь я хочу повысить эффективность краулера, я хочу, чтобы мой краулер использовал всю мою пропускную способность и сканировал как можно больше URL-адресов за заданный период времени....
2012 просмотров
schedule
27.06.2022
Перенос одного объекта между классами с помощью crawler4j
Я простой веб-сканер, построенный с использованием стандартных блоков Crawler4J. Я пытаюсь создать словарь, когда мой сканер сканирует, а затем передать его моему основному (контроллеру), когда он создает и анализирует текст. Как я могу это сделать,...
169 просмотров
schedule
20.06.2022
Клиент Feign всегда выдает исключение нулевого указателя в приложении Spring boot/Crawler4j.
Я запускаю экземпляр Crawler4j в загрузочном приложении Spring, и мой клиент OpenFeign всегда равен нулю.
public class MyCrawler extends WebCrawler {
@Autowired
HubClient hubClient;
@Override
public void visit(Page page) {
// Lots of...
1441 просмотров
schedule
22.07.2023