У меня есть база данных, заполненная извлеченными и проанализированными веб-страницами. Знает ли Solr автоматически, какой из столбцов обновляется, чтобы индексировать только изменения? Или я должен сделать свой собственный код Java или что-то еще (например, изменения в конфигурации), чтобы проверить, есть ли какие-либо изменения?
Как индексировать новые данные с помощью Solr 4.0 при обновлении базы данных?
comment
почему вы сохранили страницы в БД? вы можете иметь прямую интеграцию Nutch с Solr, чтобы индекс Solr обновлялся, как только Nutch заканчивает сканирование.
- person Jayendra   schedule 11.01.2013
comment
Да, я это знаю, но когда Nutch завершает сканирование, Solr автоматически индексирует только обновленные данные, и если да, то как Solr знает, что нужно индексировать только новые данные?
- person Slavcho   schedule 11.01.2013
comment
Nutch хранит данные для новых URL-адресов и обновленных URL-адресов, которые сохраняются в виде отдельного сегмента после каждого сканирования. Затем это передается в Solr, который добавит, если URL-адрес не существует, или обновит запись, если URL-адрес существует pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch
- person Jayendra   schedule 11.01.2013
comment
Итак, подводя итог: Solr автоматически обновляет новые данные, и нам нужно настроить Nutch для повторного сканирования в определенное время. Верно?
- person Slavcho   schedule 11.01.2013
comment
вам нужно запустить Nutch через какой-то планировщик. Nutch должен проиндексировать данные и обновить сегмент индекса, который затем предоставляется Solr для индексации, что является дельтой.
- person Jayendra   schedule 11.01.2013
comment
Спасибо, сэр, за помощь :)
- person Slavcho   schedule 11.01.2013
comment
конечно нп. Просто проверьте ссылки и wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search .Это даст вам больше информации. Вам может потребоваться некоторая настройка работы или что-то еще, чтобы она работала идеально.
- person Jayendra   schedule 11.01.2013
comment
возможный дубликат Использование Solr с часто обновляемыми данными
- person Paul Sweatte   schedule 06.01.2015