Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/278.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/ssh/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用python scrapy刮取包含_Python_Web Scraping_Scrapy_Fragment Identifier - Fatal编程技术网

如何使用python scrapy刮取包含

如何使用python scrapy刮取包含,python,web-scraping,scrapy,fragment-identifier,Python,Web Scraping,Scrapy,Fragment Identifier,我正在使用python scrapy来刮取一个网站。 该网页的格式如下: 它包含在其中。当将此网页作为开始url进行抓取时,它会忽略后面的部分 是否有一种方法可以使用python scrapy刮取其中包含的完整URL,而刮取时通常会忽略后面的部分。该符号通常会将您带到网页上的一个标签,该标签的id等于“凭单-13537”,这就是它的全部含义。因此,一旦你刮掉了页面,你应该尝试寻找类似的东西: <div id="voucher-13537"> 这就是你想要的 谈到解析html文件,

我正在使用python scrapy来刮取一个网站。 该网页的格式如下: 它包含在其中。当将此网页作为开始url进行抓取时,它会忽略后面的部分


是否有一种方法可以使用python scrapy刮取其中包含的完整URL,而刮取时通常会忽略后面的部分。该符号通常会将您带到网页上的一个标签,该标签的id等于“凭单-13537”,这就是它的全部含义。因此,一旦你刮掉了页面,你应该尝试寻找类似的东西:

<div id="voucher-13537"> 
这就是你想要的


谈到解析html文件,如果您还没有使用它,我建议您研究BeautifulSoup4模块。

将带您到页面上的特定位置。+1用于提及BeautifulSoup4,这可能更适合操作