Web crawler scrapy中的SGMLLinkedExtractor_Web Crawler_Scrapy_Rules_Extractor

Web crawler scrapy中的SGMLLinkedExtractor

web-crawler scrapy

Web crawler scrapy中的SGMLLinkedExtractor,web-crawler,scrapy,rules,extractor,Web Crawler,Scrapy,Rules,Extractor,我需要一些关于scrapy中SGMLLinkedExtractor的启示 Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')] 对于链接：example.com/yyy/MM/DD/title我会写： Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')] 链接：e

我需要一些关于scrapy中SGMLLinkedExtractor的启示

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

对于链接：example.com/yyy/MM/DD/title我会写：

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

链接：example.com/news/economic/title我应该写：

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

r'\news\category\w+'

或

r'\news\w+/\w+'

？（类别更改，但url始终包含新闻）

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

链接：example.com/article/title我应该写：

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

r'\article\w+'

？（url始终包含文章）

如果您没有提供完整的示例字符串以及要与正则表达式匹配的内容（以及不想匹配的内容），则无法回答“我应该”问题

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

我想，您的正则表达式不会工作，因为您使用的是

而不是

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

我建议您转到并测试URL是否与正则表达式匹配。请参见以下屏幕截图：

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

你应该改进你的问题。它缺少与代码不兼容的内容。因为它看起来很好，应该做你想做的。你不需要在你的问题中添加“我需要帮助”或“请帮助”。每个人都在问问题。为了增加获得好答案的机会，最好编写一个好问题。（你做了什么，你期望什么，你得到了什么，…更多信息请参阅常见问题解答）好的，对不起，这只是因为我只有5天的时间去做。。。我将编辑此消息@弗兰克马丁

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]