Web crawler scrapy中的SGMLLinkedExtractor

Web crawler scrapy中的SGMLLinkedExtractor,web-crawler,scrapy,rules,extractor,Web Crawler,Scrapy,Rules,Extractor,我需要一些关于scrapy中SGMLLinkedExtractor的启示 Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')] 对于链接:example.com/yyy/MM/DD/title我会写: Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')] 链接:e

我需要一些关于scrapy中SGMLLinkedExtractor的启示

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
对于链接:example.com/yyy/MM/DD/title我会写:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
链接:example.com/news/economic/title我应该写:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
r'\news\category\w+'
r'\news\w+/\w+'
?(类别更改,但url始终包含新闻

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
链接:example.com/article/title我应该写:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

r'\article\w+'
?(url始终包含文章

如果您没有提供完整的示例字符串以及要与正则表达式匹配的内容(以及不想匹配的内容),则无法回答“我应该”问题

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
我想,您的正则表达式不会工作,因为您使用的是
\
而不是
/

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
我建议您转到并测试URL是否与正则表达式匹配。请参见以下屏幕截图:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

你应该改进你的问题。它缺少与代码不兼容的内容。因为它看起来很好,应该做你想做的。你不需要在你的问题中添加“我需要帮助”或“请帮助”。每个人都在问问题。为了增加获得好答案的机会,最好编写一个好问题。(你做了什么,你期望什么,你得到了什么,…更多信息请参阅常见问题解答)好的,对不起,这只是因为我只有5天的时间去做。。。我将编辑此消息@弗兰克马丁
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]