Мне нужно немного просветления о SgmlLinkExtractor в scrapy.
Для ссылки: example.com/YYYY/MM/DD/title я бы написал:
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
Для ссылки: example.com/news/economic/title я должен написать:
r'\news\category\w+'
или r'\news\w+/\w+'
? (категория меняется, но URL всегда содержит новости)
Для ссылки: example.com/article/title я должен написать:
r'\article\w+'
? (URL всегда содержит статью)