Python scrapy爬虫无法从主页工作_Python_Html_Web Scraping_Web Crawler_Scrapy

Python scrapy爬虫无法从主页工作

python html web-scraping web-crawler scrapy

Python scrapy爬虫无法从主页工作,python,html,web-scraping,web-crawler,scrapy,Python,Html,Web Scraping,Web Crawler,Scrapy,我写了一个潦草的涂鸦，试图在上面收集物品但是，它不会超出主页进入任何链接。我尝试了各种方法，也检查了SGMLLinkedExtractor的正则表达式。这里有什么问题吗？问题是您试图提取的链接中插入了jsessionid，例如： <a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16"> 希望能有所帮助。谢谢！这非常有效。您查看了html源代码以了

我写了一个潦草的涂鸦，试图在上面收集物品

但是，它不会超出主页进入任何链接。我尝试了各种方法，也检查了SGMLLinkedExtractor的正则表达式。这里有什么问题吗？

问题是您试图提取的链接中插入了

jsessionid

，例如：

<a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16">

希望能有所帮助。

谢谢！这非常有效。您查看了html源代码以了解这一点？

<a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16">

rules = [Rule(SgmlLinkExtractor(allow=[r'category\.sc.*?categoryId=\d+']), callback='parse_item'),
         Rule(SgmlLinkExtractor(allow=[r'product\.sc.*?productId=\d+&categoryId=\d+']), callback='parse_item')]