SgmlLinkExtractor в скраппи

Мне нужно немного просветления о SgmlLinkExtractor в scrapy.

Для ссылки: example.com/YYYY/MM/DD/title я бы написал:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

Для ссылки: example.com/news/economic/title я должен написать:

r'\news\category\w+'или r'\news\w+/\w+' ? (категория меняется, но URL всегда содержит новости)

Для ссылки: example.com/article/title я должен написать:

r'\article\w+' ? (URL всегда содержит статью)

achvil 04.06.2015 источник

comment

Вы должны улучшить свой вопрос. Не хватает того, что не работает с кодом. Потому что он выглядит хорошо и должен делать то, что вы хотите. - Frank Martin 05.06.2015

comment

Вам не нужно добавлять мне нужна помощь или Пожалуйста, ПОМОГИТЕ на ваши вопросы. Все, кто задает вопрос, делают это. Чтобы увеличить шанс получить хороший ответ, лучше составить хороший вопрос. (что вы сделали, что вы ожидаете, что вы получаете, ... см. FAQ для получения дополнительной информации) - Frank Martin 05.06.2015

comment

хорошо, извините, это просто потому, что у меня есть только 5 дней, чтобы сделать это... я отредактирую сообщение. @ФранкМартин - achvil 05.06.2015

Ответы (1)

arrow_upward
0
arrow_downward

Невозможно ответить на вопросы «должен ли я», если вы не предоставите полные примеры строк и то, что вы хотите сопоставить (и что вы не хотите сопоставлять) с регулярным выражением.

Я предполагаю, что ваше регулярное выражение не будет работать, потому что вы используете \ вместо /.

Я рекомендую вам перейти на страницу regex101 и проверить, соответствуют ли ваши URL вашим регулярным выражениям. Смотрите следующий снимок экрана:

введите здесь описание изображения

Frank Martin 05.06.2015

SgmlLinkExtractor в скраппи

Ответы (1)

Вопросы по теме