Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/assembly/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python scrapy爬虫无法从主页工作_Python_Html_Web Scraping_Web Crawler_Scrapy - Fatal编程技术网

Python scrapy爬虫无法从主页工作

Python scrapy爬虫无法从主页工作,python,html,web-scraping,web-crawler,scrapy,Python,Html,Web Scraping,Web Crawler,Scrapy,我写了一个潦草的涂鸦,试图在上面收集物品 但是,它不会超出主页进入任何链接。我尝试了各种方法,也检查了SGMLLinkedExtractor的正则表达式。这里有什么问题吗?问题是您试图提取的链接中插入了jsessionid,例如: <a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16"> 希望能有所帮助。谢谢!这非常有效。您查看了html源代码以了

我写了一个潦草的涂鸦,试图在上面收集物品


但是,它不会超出主页进入任何链接。我尝试了各种方法,也检查了SGMLLinkedExtractor的正则表达式。这里有什么问题吗?

问题是您试图提取的链接中插入了
jsessionid
,例如:

<a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16">

希望能有所帮助。

谢谢!这非常有效。您查看了html源代码以了解这一点?
<a href="/category.sc;jsessionid=EA2CAA7A3949F4E462BBF466E03755B7.m1plqscsfapp05?categoryId=16">
rules = [Rule(SgmlLinkExtractor(allow=[r'category\.sc.*?categoryId=\d+']), callback='parse_item'),
         Rule(SgmlLinkExtractor(allow=[r'product\.sc.*?productId=\d+&categoryId=\d+']), callback='parse_item')]