Может ли StormCrawler сканировать файловую систему, а не URL-адреса?

Есть ли способ использовать StormCrawler для индексации файлов в файловой системе, а не URL-адресов? У нас есть более 5 миллионов файлов, которые необходимо просканировать и проиндексировать (с помощью ElasticSearch). Индекс необходимо обновлять ежедневно или чаще. Другим сканерам требуется более 50 часов для сканирования полного набора файлов. Это делает циклы обновления слишком медленными. Например, если вам нужно обновлять поисковый индекс ежедневно или чаще, это невозможно с другими сканерами.


person Rob W    schedule 05.02.2020    source источник


Ответы (1)


Существует Файловый протокол, доступный в StormCrawler. Если вы представляете файлы как URI с помощью file: //, SC должен иметь возможность обрабатывать их из коробки.

person Julien Nioche    schedule 05.02.2020
comment
Спасибо. Кроме того, каков рекомендуемый способ масштабирования сканирования миллионов документов, составляющих многотерабайтные общие файловые ресурсы, чтобы можно было быстро выполнить первоначальное сканирование и сканирование обновлений? - person Rob W; 07.02.2020