Насколько я понимаю, основной пример должен уметь сканировать и извлекать страницы.
Я последовал примеру на http://stormcrawler.net/getting-started/, но сканер кажется чтобы получить только несколько страниц и больше ничего не делать.
Я хотел просканировать http://books.toscrape.com/ и запустил сканирование, но увидел в журналах что была извлечена только первая страница, а некоторые другие были обнаружены, но не извлечены:
8010 [Thread-34-parse-executor[5 5]] INFO c.d.s.b.JSoupParserBolt - Parsing : starting http://books.toscrape.com/
8214 [Thread-34-parse-executor[5 5]] INFO c.d.s.b.JSoupParserBolt - Parsed http://books.toscrape.com/ in 182 msec
content 1435 chars
url http://books.toscrape.com/
domain toscrape.com
description
title All products | Books to Scrape - Sandbox
http://books.toscrape.com/catalogue/category/books/new-adult_20/index.html DISCOVERED Thu Apr 05 13:46:01 CEST 2018
url.path: http://books.toscrape.com/
depth: 1
http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html DISCOVERED Thu Apr 05 13:46:01 CEST 2018
url.path: http://books.toscrape.com/
depth: 1
http://books.toscrape.com/catalogue/category/books/thriller_37/index.html DISCOVERED Thu Apr 05 13:46:01 CEST 2018
url.path: http://books.toscrape.com/
depth: 1
http://books.toscrape.com/catalogue/category/books/academic_40/index.html DISCOVERED Thu Apr 05 13:46:01 CEST 2018
url.path: http://books.toscrape.com/
depth: 1
http://books.toscrape.com/catalogue/category/books/classics_6/index.html DISCOVERED Thu Apr 05 13:46:01 CEST 2018
url.path: http://books.toscrape.com/
depth: 1
http://books.toscrape.com/catalogue/category/books/paranormal_24/index.html DISCOVERED Thu Apr 05 13:46:01 CEST 2018
url.path: http://books.toscrape.com/
depth: 1
....
17131 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 6:partitioner URLPartitioner {}
17164 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 8:spout queue_size 0
17403 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 5:parse JSoupParserBolt {tuple_success=1, outlink_kept=73}
17693 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 3:fetcher num_queues 0
17693 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 3:fetcher fetcher_average_perdoc {time_in_queues=265.0, bytes_fetched=51294.0, fetch_time=52.0}
17693 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 3:fetcher fetcher_counter {robots.fetched=1, bytes_fetched=51294, fetched=1}
17693 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 3:fetcher activethreads 0
17693 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 3:fetcher fetcher_average_persec {bytes_fetched_perSec=5295.137813564571, fetched_perSec=0.10323113451016827}
17693 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928770 172.18.25.22:1024 3:fetcher in_queues 0
27127 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 6:partitioner URLPartitioner {}
27168 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 8:spout queue_size 0
27405 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 5:parse JSoupParserBolt {tuple_success=0, outlink_kept=0}
27695 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 3:fetcher num_queues 0
27695 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 3:fetcher fetcher_average_perdoc {}
27695 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 3:fetcher fetcher_counter {robots.fetched=0, bytes_fetched=0, fetched=0}
27695 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 3:fetcher activethreads 0
27696 [Thread-39] INFO o.a.s.m.LoggingMetricsConsumer - 1522928780 172.18.25.22:1024 3:fetcher fetcher_average_persec {bytes_fetched_perSec=0.0, fetched_perSec=0.0}
Файлы конфигурации не были изменены. Включая crawler-conf.yaml. Также должен быть установлен флаг parser.emitOutlinks
, поскольку он установлен по умолчанию в crawler-default.yaml.
В другом проекте я также следил за учебником youtube, касающимся elasticsearch. Здесь у меня также была проблема, заключающаяся в том, что никакие страницы не были извлечены и проиндексированы.
В чем может быть ошибка, заключающаяся в том, что поисковый робот не получает никаких страниц?