Публикации по теме stormcrawler [web-crawler, stormcrawler, java, apache-storm, debugging]

Вопросы по теме 'stormcrawler'

StormCrawler AJAX / Разбор динамического контента

Я хотел бы знать, что текущая версия Stormcrawler поддерживает анализ содержимого AJAX / Dynamic и сохраняет его в elasticsearch. Я знаю, что идет работа над улучшением, вот ссылка: https://github.com/DigitalPebble/storm-crawler/issues/144...

162 просмотров

web-crawler stormcrawler

21.06.2023

Сканирование для конкретного домена с разными настройками для каждого домена (например, скоростью) с использованием сканера Storm

Я обнаружил краулер Storm совсем недавно, и, исходя из прошлого опыта, исследований и работы с разными краулерами, я считаю этот проект, основанный на Apache Storm, довольно надежным и подходящим для многих вариантов использования и сценариев. Я...

602 просмотров

java web-crawler apache-storm stormcrawler

18.06.2022

Не удается настроить новый поток для warc bolt

Я пытаюсь настроить новый поток, чтобы соединить болт Tika с болтом warc. import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler.warc.WARCHdfsBolt; builder.setBolt("tika", new ParserBolt(), numWorkers)...

171 просмотров

web-crawler stormcrawler

05.03.2023

Отладка Storm Crawler

Как вы отлаживаете Storm-Crawl? Я имею в виду, что вы написали какой-то модуль и хотите это проверить. Вы можете написать модульный тест, но вы хотите проверить его в системе (может быть, в локальной системе), как вы это делаете? Думаю, Жюльен...

100 просмотров

debugging web-crawler apache-storm stormcrawler

13.04.2022

Можно ли настроить краулер Storm, чтобы он добавлял URL-адрес хоста в начало маршрута URL-адреса во время сканирования?

Я хочу сканировать такие URL-адреса, перед которыми нет хоста. <div class=pro-info> <a href="/being-human-mens-solid-polo-t-shirt/p-202971521"> </div Могу ли я добавить хост-часть URL-адреса перед этими URL-адресами,...

92 просмотров

web-crawler stormcrawler

25.04.2023

Почему у меня разное количество документов в статусе и индексе?

Итак, я следую руководству Storm-Crawler-ElasticSearch и экспериментирую с ним. Когда Kibana используется для поиска, я заметил, что количество совпадений для имени индекса «status» намного больше, чем «index». Пример: В левом верхнем...

180 просмотров

kibana web-crawler stormcrawler

21.12.2022

Топология архетипа StormCrawler не получает исходящие ссылки

Насколько я понимаю, основной пример должен уметь сканировать и извлекать страницы. Я последовал примеру на http://stormcrawler.net/getting-started/ , но сканер кажется чтобы получить только несколько страниц и больше ничего не делать. Я хотел...

103 просмотров

web-crawler apache-storm stormcrawler

03.05.2022

Обработка перенаправлений в Storm-Crawler

Могу ли я с помощью SC следить за перенаправлениями, не отправляя исходящие ссылки? Должен ли перенаправленный URL быть введен в мой сервер как «ОБНАРУЖЕН» или нет? Это похоже не из моих небольших экспериментов со следующей настройкой:...

148 просмотров

web-crawler stormcrawler

19.11.2022

Как интегрировать болт Python в топологию, созданную с помощью Storm Crawler SDK

Я пытался интегрировать болт, созданный на python, в топологию, созданную с использованием компонентов Storm-Crawler_SDK-1.7 и Apache-Storm-1.1.0. Выполнение топологии не может найти исполняемую программу python и ищет ее в совершенно другом...

155 просмотров

python apache-storm stormcrawler

21.06.2022

Stormcrawler медленный с большой задержкой сканирования 300 доменов

В настоящее время я борюсь с этой проблемой примерно 3 месяца. Сканер загружает страницы каждые 10 минут, но ничего не делает между ними. С очень низкой общей пропускной способностью. Параллельно просматриваю 300 доменов. Что должно составлять...

281 просмотров

web-crawler apache-storm stormcrawler

23.07.2022

Проблема с пробелами

Работа над Storm 1.13 и Elastic Search 6.5.2. Сканер работает нормально, и у меня проблема с пробелами / n и / t . Когда я проверяю индекс, я вижу много / n и / t . Как я могу избежать этого при сканировании. Образец: {...

26 просмотров

web-crawler stormcrawler

14.01.2023

Stormcrawler - как работает es.status.filterQuery?

Я использую Stormcrawler для помещения данных в некоторые индексы Elasticsearch, и у меня есть несколько URL-адресов в индексе статуса с различными статусами - ОБНАРУЖЕН, ИЗБРАННО, ОШИБКА и т. Д. Мне было интересно, могу ли я сказать StormCrawler...

59 просмотров

web-crawler stormcrawler

01.07.2022

Как правильно зациклить обнаруженные URL-адреса, чтобы получить их?

Я начал с топологии по умолчанию, но хочу выполнить рекурсивное сканирование. Поэтому мне нужно изменить файл потока, чтобы зациклить обнаруженные URL-адреса обратно в сборщик, и я не уверен, как лучше всего это сделать? Есть ли хороший образец...

44 просмотров

web-crawler apache-storm stormcrawler

21.09.2022

Какие значения / поля я могу получить от Stormcrawler?

Я использую Stormcrawler 1.15, ElasticSearch 7.5 и следую этому руководству, чтобы запустить SC: https://www.youtube.com/watch?v=KTerugU12TY В моем crawler-conf.yaml у меня есть: # indexer.md.filter: "someKey=aValue"...

94 просмотров

elasticsearch-7 apache-tika stormcrawler

13.04.2022

Может ли StormCrawler сканировать файловую систему, а не URL-адреса?

Есть ли способ использовать StormCrawler для индексации файлов в файловой системе, а не URL-адресов? У нас есть более 5 миллионов файлов, которые необходимо просканировать и проиндексировать (с помощью ElasticSearch ). Индекс необходимо обновлять...

38 просмотров

stormcrawler

19.03.2023

не может сканировать данные из эластичного поиска через Storm Crawler

Я использовал следующие версии необходимых библиотек и ресурсов, как это предлагается на этом сайте: https://medium.com/analytics-vidhya/web-scraping-and-indexing-with-stormcrawler-and-elasticsearch-a105cb9c02ca Мой elasticdb работает...

83 просмотров

web-crawler stormcrawler

20.11.2022

Работа с пустыми полями

Я новичок в Stormcrawler и elasticsearch в целом. В настоящее время я использую Stormcrawler 2.0 для индексации данных веб-сайтов (включая элементы, не относящиеся к HTML, такие как документы PDF и Word) в elasticsearch. В некоторых случаях...

32 просмотров

web-crawler stormcrawler

29.07.2022

Есть ли какой-нибудь систематический способ включить или выключить какой-нибудь Bolt в StormCrawler?

Я разработал проект StormCrawler, в котором есть несколько дополнительных болтов в этой топологии. Мой сканер должен работать 7 х 24 без простоев. Поэтому я не могу перезапустить краулер и изменить конфигурацию топологии. Хочу обойти (включить или...

29 просмотров

apache-storm stormcrawler

10.02.2023

событие завершения сканирования всех дополнительных URL для определенного базового URL в Storm Crawler

В настоящее время я работаю над проектом на основе Storm Crawler. Мне нужно выполнить некоторую обработку после события завершения сканирования всех дополнительных URL-адресов для этого базового URL. Например, я хочу изменить статус, когда все...

31 просмотров

web-crawler stormcrawler

07.02.2023

сканировать URL-адреса на основе их приоритетов в StormCrawler

Я работаю над краулером на основе проекта StormCrawler. У меня есть требование сканировать URL-адреса в зависимости от их приоритета. Например, у меня есть два типа приоритета: ВЫСОКИЙ, НИЗКИЙ. Я хочу сканировать URL-адреса с ВЫСОКИМ приоритетом...

64 просмотров

web-crawler stormcrawler

17.08.2022