Python scrapy爬虫无法从主页工作
我写了一个潦草的涂鸦,试图在上面收集物品Python scrapy爬虫无法从主页工作,python,html,web-scraping,web-crawler,scrapy,Python,Html,Web Scraping,Web Crawler,Scrapy,我写了一个潦草的涂鸦,试图在上面收集物品 但是,它不会超出主页进入任何链接。我尝试了各种方法,也检查了SGMLLinkedExtractor的正则表达式。这里有什么问题吗?问题是您试图提取的链接中插入了jsessionid,例如: <a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16"> 希望能有所帮助。谢谢!这非常有效。您查看了html源代码以了
但是,它不会超出主页进入任何链接。我尝试了各种方法,也检查了SGMLLinkedExtractor的正则表达式。这里有什么问题吗?问题是您试图提取的链接中插入了
jsessionid
,例如:
<a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16">
希望能有所帮助。谢谢!这非常有效。您查看了html源代码以了解这一点?
<a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16">
rules = [Rule(SgmlLinkExtractor(allow=[r'category\.sc.*?categoryId=\d+']), callback='parse_item'),
Rule(SgmlLinkExtractor(allow=[r'product\.sc.*?productId=\d+&categoryId=\d+']), callback='parse_item')]