Есть ли способ использовать StormCrawler для индексации файлов в файловой системе, а не URL-адресов? У нас есть более 5 миллионов файлов, которые необходимо просканировать и проиндексировать (с помощью ElasticSearch). Индекс необходимо обновлять ежедневно или чаще. Другим сканерам требуется более 50 часов для сканирования полного набора файлов. Это делает циклы обновления слишком медленными. Например, если вам нужно обновлять поисковый индекс ежедневно или чаще, это невозможно с другими сканерами.
Может ли StormCrawler сканировать файловую систему, а не URL-адреса?
Ответы (1)
Существует Файловый протокол, доступный в StormCrawler. Если вы представляете файлы как URI с помощью file: //, SC должен иметь возможность обрабатывать их из коробки.
person
Julien Nioche
schedule
05.02.2020
Спасибо. Кроме того, каков рекомендуемый способ масштабирования сканирования миллионов документов, составляющих многотерабайтные общие файловые ресурсы, чтобы можно было быстро выполнить первоначальное сканирование и сканирование обновлений?
- person Rob W; 07.02.2020