Может ли StormCrawler сканировать файловую систему, а не URL-адреса?

Есть ли способ использовать StormCrawler для индексации файлов в файловой системе, а не URL-адресов? У нас есть более 5 миллионов файлов, которые необходимо просканировать и проиндексировать (с помощью ElasticSearch). Индекс необходимо обновлять ежедневно или чаще. Другим сканерам требуется более 50 часов для сканирования полного набора файлов. Это делает циклы обновления слишком медленными. Например, если вам нужно обновлять поисковый индекс ежедневно или чаще, это невозможно с другими сканерами.

stormcrawler

Rob W 05.02.2020 источник

Ответы (1)

arrow_upward
0
arrow_downward

Существует Файловый протокол, доступный в StormCrawler. Если вы представляете файлы как URI с помощью file: //, SC должен иметь возможность обрабатывать их из коробки.

Julien Nioche 05.02.2020

comment

Спасибо. Кроме того, каков рекомендуемый способ масштабирования сканирования миллионов документов, составляющих многотерабайтные общие файловые ресурсы, чтобы можно было быстро выполнить первоначальное сканирование и сканирование обновлений? - Rob W; 07.02.2020

Может ли StormCrawler сканировать файловую систему, а не URL-адреса?

Ответы (1)

Вопросы по теме