Вопросы по теме 'stormcrawler'

StormCrawler AJAX / Разбор динамического контента
Я хотел бы знать, что текущая версия Stormcrawler поддерживает анализ содержимого AJAX / Dynamic и сохраняет его в elasticsearch. Я знаю, что идет работа над улучшением, вот ссылка: https://github.com/DigitalPebble/storm-crawler/issues/144...
162 просмотров
schedule 21.06.2023

Сканирование для конкретного домена с разными настройками для каждого домена (например, скоростью) с использованием сканера Storm
Я обнаружил краулер Storm совсем недавно, и, исходя из прошлого опыта, исследований и работы с разными краулерами, я считаю этот проект, основанный на Apache Storm, довольно надежным и подходящим для многих вариантов использования и сценариев. Я...
602 просмотров

Не удается настроить новый поток для warc bolt
Я пытаюсь настроить новый поток, чтобы соединить болт Tika с болтом warc. import com.digitalpebble.stormcrawler.tika.ParserBolt; import com.digitalpebble.stormcrawler.warc.WARCHdfsBolt; builder.setBolt("tika", new ParserBolt(), numWorkers)...
171 просмотров
schedule 05.03.2023

Отладка Storm Crawler
Как вы отлаживаете Storm-Crawl? Я имею в виду, что вы написали какой-то модуль и хотите это проверить. Вы можете написать модульный тест, но вы хотите проверить его в системе (может быть, в локальной системе), как вы это делаете? Думаю, Жюльен...
100 просмотров

Можно ли настроить краулер Storm, чтобы он добавлял URL-адрес хоста в начало маршрута URL-адреса во время сканирования?
Я хочу сканировать такие URL-адреса, перед которыми нет хоста. <div class=pro-info> <a href="/being-human-mens-solid-polo-t-shirt/p-202971521"> </div Могу ли я добавить хост-часть URL-адреса перед этими URL-адресами,...
92 просмотров
schedule 25.04.2023

Почему у меня разное количество документов в статусе и индексе?
Итак, я следую руководству Storm-Crawler-ElasticSearch и экспериментирую с ним. Когда Kibana используется для поиска, я заметил, что количество совпадений для имени индекса «status» намного больше, чем «index». Пример: В левом верхнем...
180 просмотров
schedule 21.12.2022

Топология архетипа StormCrawler не получает исходящие ссылки
Насколько я понимаю, основной пример должен уметь сканировать и извлекать страницы. Я последовал примеру на http://stormcrawler.net/getting-started/ , но сканер кажется чтобы получить только несколько страниц и больше ничего не делать. Я хотел...
103 просмотров
schedule 03.05.2022

Обработка перенаправлений в Storm-Crawler
Могу ли я с помощью SC следить за перенаправлениями, не отправляя исходящие ссылки? Должен ли перенаправленный URL быть введен в мой сервер как «ОБНАРУЖЕН» или нет? Это похоже не из моих небольших экспериментов со следующей настройкой:...
148 просмотров
schedule 19.11.2022

Как интегрировать болт Python в топологию, созданную с помощью Storm Crawler SDK
Я пытался интегрировать болт, созданный на python, в топологию, созданную с использованием компонентов Storm-Crawler_SDK-1.7 и Apache-Storm-1.1.0. Выполнение топологии не может найти исполняемую программу python и ищет ее в совершенно другом...
155 просмотров
schedule 21.06.2022

Stormcrawler медленный с большой задержкой сканирования 300 доменов
В настоящее время я борюсь с этой проблемой примерно 3 месяца. Сканер загружает страницы каждые 10 минут, но ничего не делает между ними. С очень низкой общей пропускной способностью. Параллельно просматриваю 300 доменов. Что должно составлять...
281 просмотров
schedule 23.07.2022

Проблема с пробелами
Работа над Storm 1.13 и Elastic Search 6.5.2. Сканер работает нормально, и у меня проблема с пробелами / n и / t . Когда я проверяю индекс, я вижу много / n и / t . Как я могу избежать этого при сканировании. Образец: {...
26 просмотров
schedule 14.01.2023

Stormcrawler - как работает es.status.filterQuery?
Я использую Stormcrawler для помещения данных в некоторые индексы Elasticsearch, и у меня есть несколько URL-адресов в индексе статуса с различными статусами - ОБНАРУЖЕН, ИЗБРАННО, ОШИБКА и т. Д. Мне было интересно, могу ли я сказать StormCrawler...
59 просмотров
schedule 01.07.2022

Как правильно зациклить обнаруженные URL-адреса, чтобы получить их?
Я начал с топологии по умолчанию, но хочу выполнить рекурсивное сканирование. Поэтому мне нужно изменить файл потока, чтобы зациклить обнаруженные URL-адреса обратно в сборщик, и я не уверен, как лучше всего это сделать? Есть ли хороший образец...
44 просмотров
schedule 21.09.2022

Какие значения / поля я могу получить от Stormcrawler?
Я использую Stormcrawler 1.15, ElasticSearch 7.5 и следую этому руководству, чтобы запустить SC: https://www.youtube.com/watch?v=KTerugU12TY В моем crawler-conf.yaml у меня есть: # indexer.md.filter: "someKey=aValue"...
94 просмотров

Может ли StormCrawler сканировать файловую систему, а не URL-адреса?
Есть ли способ использовать StormCrawler для индексации файлов в файловой системе, а не URL-адресов? У нас есть более 5 миллионов файлов, которые необходимо просканировать и проиндексировать (с помощью ElasticSearch ). Индекс необходимо обновлять...
38 просмотров
schedule 19.03.2023

не может сканировать данные из эластичного поиска через Storm Crawler
Я использовал следующие версии необходимых библиотек и ресурсов, как это предлагается на этом сайте: https://medium.com/analytics-vidhya/web-scraping-and-indexing-with-stormcrawler-and-elasticsearch-a105cb9c02ca Мой elasticdb работает...
83 просмотров
schedule 20.11.2022

Работа с пустыми полями
Я новичок в Stormcrawler и elasticsearch в целом. В настоящее время я использую Stormcrawler 2.0 для индексации данных веб-сайтов (включая элементы, не относящиеся к HTML, такие как документы PDF и Word) в elasticsearch. В некоторых случаях...
32 просмотров
schedule 29.07.2022

Есть ли какой-нибудь систематический способ включить или выключить какой-нибудь Bolt в StormCrawler?
Я разработал проект StormCrawler, в котором есть несколько дополнительных болтов в этой топологии. Мой сканер должен работать 7 х 24 без простоев. Поэтому я не могу перезапустить краулер и изменить конфигурацию топологии. Хочу обойти (включить или...
29 просмотров
schedule 10.02.2023

событие завершения сканирования всех дополнительных URL для определенного базового URL в Storm Crawler
В настоящее время я работаю над проектом на основе Storm Crawler. Мне нужно выполнить некоторую обработку после события завершения сканирования всех дополнительных URL-адресов для этого базового URL. Например, я хочу изменить статус, когда все...
31 просмотров
schedule 07.02.2023

сканировать URL-адреса на основе их приоритетов в StormCrawler
Я работаю над краулером на основе проекта StormCrawler. У меня есть требование сканировать URL-адреса в зависимости от их приоритета. Например, у меня есть два типа приоритета: ВЫСОКИЙ, НИЗКИЙ. Я хочу сканировать URL-адреса с ВЫСОКИМ приоритетом...
64 просмотров
schedule 17.08.2022