Как индексировать новые данные с помощью Solr 4.0 при обновлении базы данных?

У меня есть база данных, заполненная извлеченными и проанализированными веб-страницами. Знает ли Solr автоматически, какой из столбцов обновляется, чтобы индексировать только изменения? Или я должен сделать свой собственный код Java или что-то еще (например, изменения в конфигурации), чтобы проверить, есть ли какие-либо изменения?


person Slavcho    schedule 11.01.2013    source источник
comment
почему вы сохранили страницы в БД? вы можете иметь прямую интеграцию Nutch с Solr, чтобы индекс Solr обновлялся, как только Nutch заканчивает сканирование.   -  person Jayendra    schedule 11.01.2013
comment
Да, я это знаю, но когда Nutch завершает сканирование, Solr автоматически индексирует только обновленные данные, и если да, то как Solr знает, что нужно индексировать только новые данные?   -  person Slavcho    schedule 11.01.2013
comment
Nutch хранит данные для новых URL-адресов и обновленных URL-адресов, которые сохраняются в виде отдельного сегмента после каждого сканирования. Затем это передается в Solr, который добавит, если URL-адрес не существует, или обновит запись, если URL-адрес существует pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch   -  person Jayendra    schedule 11.01.2013
comment
Итак, подводя итог: Solr автоматически обновляет новые данные, и нам нужно настроить Nutch для повторного сканирования в определенное время. Верно?   -  person Slavcho    schedule 11.01.2013
comment
вам нужно запустить Nutch через какой-то планировщик. Nutch должен проиндексировать данные и обновить сегмент индекса, который затем предоставляется Solr для индексации, что является дельтой.   -  person Jayendra    schedule 11.01.2013
comment
Спасибо, сэр, за помощь :)   -  person Slavcho    schedule 11.01.2013
comment
конечно нп. Просто проверьте ссылки и wiki.apache.org/nutch/NutchTutorial#A4._Setup_Solr_for_search .Это даст вам больше информации. Вам может потребоваться некоторая настройка работы или что-то еще, чтобы она работала идеально.   -  person Jayendra    schedule 11.01.2013
comment
возможный дубликат Использование Solr с часто обновляемыми данными   -  person Paul Sweatte    schedule 06.01.2015