Почему у меня разное количество документов в статусе и индексе?

Итак, я следую руководству Storm-Crawler-ElasticSearch и экспериментирую с ним.

Когда Kibana используется для поиска, я заметил, что количество совпадений для имени индекса «status» намного больше, чем «index».

Пример:

В левом верхнем углу вы можете увидеть 846 обращений для индекса 'status', я полагаю, это означает, что он просканировал 846 страниц.

введите здесь описание изображения

Теперь с помощью индекса 'index' показано, что есть только 31 совпадение.

Я понимаю, что функциональный индекс и статус отличаются, поскольку статус отвечает только за метаданные ссылки. Проблема в том, что кажется, что StormCrawler анализирует множество страниц, а не индексирует их.

Так что я бы хотел, чтобы такое же количество обращений к «индексу» отображалось. Вместо 31.


person bob9123    schedule 16.03.2018    source источник


Ответы (2)


Индекс статуса содержит информацию обо всех URL-адресах, найденных или обнаруженных поисковым роботом. Это примерно эквивалент crawldb в Nutch. 'Index' индекс содержит страницы, которые были извлечены, проанализированы и, ну, ну, ну, проиндексированы.

Теперь, если вы посмотрите на поле 'status' в индексе статуса, вы обнаружите, что существуют разные значения, указывающие, был ли URL-адрес ОБНАРУЖЕН, ИЗБРАНЕН и т. Д. См. WIKI о потоке статуса. Те, которые помечены как DISCOVERED, еще не получены и поэтому не могут быть в индексе. Если вы отфильтруете содержимое индекса статуса по статусу: FETCHED, вы должны увидеть число, сопоставимое с целевым индексом.

Модуль Elasticsearch в SC содержит шаблоны для кибаны, которые позволяют вам видеть разбивку URL-адресов по статусу. Если вы еще этого не сделали, я бы порекомендовал вам просмотреть видеоуроки. на Youtube.

Так что я бы хотел, чтобы такое же количество обращений к «индексу» отображалось. Вместо 31.

В конечном итоге он доберется до цели, вам просто нужно дать сканеру время выполнить свою работу (и сделать это вежливо). Имейте в виду, что сканер обнаруживает URL-адреса быстрее, чем получает их. Прежде чем спрашивать о скорости, прочтите FAQ.

person Julien Nioche    schedule 16.03.2018

Перенаправления и ошибки выборки - еще одна возможная причина разницы. Они существуют в индексе статуса, но не в индексе содержания.

person David Cain    schedule 11.07.2018
comment
Хорошо, может быть, не для учебника. - person David Cain; 12.07.2018