SgmlLinkExtractor в скраппи

Мне нужно немного просветления о SgmlLinkExtractor в scrapy.

Для ссылки: example.com/YYYY/MM/DD/title я бы написал:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

Для ссылки: example.com/news/economic/title я должен написать:

r'\news\category\w+'или r'\news\w+/\w+' ? (категория меняется, но URL всегда содержит новости)

Для ссылки: example.com/article/title я должен написать:

r'\article\w+' ? (URL всегда содержит статью)


person achvil    schedule 04.06.2015    source источник
comment
Вы должны улучшить свой вопрос. Не хватает того, что не работает с кодом. Потому что он выглядит хорошо и должен делать то, что вы хотите.   -  person Frank Martin    schedule 05.06.2015
comment
Вам не нужно добавлять мне нужна помощь или Пожалуйста, ПОМОГИТЕ на ваши вопросы. Все, кто задает вопрос, делают это. Чтобы увеличить шанс получить хороший ответ, лучше составить хороший вопрос. (что вы сделали, что вы ожидаете, что вы получаете, ... см. FAQ для получения дополнительной информации)   -  person Frank Martin    schedule 05.06.2015
comment
хорошо, извините, это просто потому, что у меня есть только 5 дней, чтобы сделать это... я отредактирую сообщение. @ФранкМартин   -  person achvil    schedule 05.06.2015


Ответы (1)


Невозможно ответить на вопросы «должен ли я», если вы не предоставите полные примеры строк и то, что вы хотите сопоставить (и что вы не хотите сопоставлять) с регулярным выражением.

Я предполагаю, что ваше регулярное выражение не будет работать, потому что вы используете \ вместо /.

Я рекомендую вам перейти на страницу regex101 и проверить, соответствуют ли ваши URL вашим регулярным выражениям. Смотрите следующий снимок экрана:

введите здесь описание изображения

person Frank Martin    schedule 05.06.2015