如何使用python scrapy刮取包含
我正在使用python scrapy来刮取一个网站。 该网页的格式如下: 它包含在其中。当将此网页作为开始url进行抓取时,它会忽略后面的部分如何使用python scrapy刮取包含,python,web-scraping,scrapy,fragment-identifier,Python,Web Scraping,Scrapy,Fragment Identifier,我正在使用python scrapy来刮取一个网站。 该网页的格式如下: 它包含在其中。当将此网页作为开始url进行抓取时,它会忽略后面的部分 是否有一种方法可以使用python scrapy刮取其中包含的完整URL,而刮取时通常会忽略后面的部分。该符号通常会将您带到网页上的一个标签,该标签的id等于“凭单-13537”,这就是它的全部含义。因此,一旦你刮掉了页面,你应该尝试寻找类似的东西: <div id="voucher-13537"> 这就是你想要的 谈到解析html文件,
是否有一种方法可以使用python scrapy刮取其中包含的完整URL,而刮取时通常会忽略后面的部分。该符号通常会将您带到网页上的一个标签,该标签的id等于“凭单-13537”,这就是它的全部含义。因此,一旦你刮掉了页面,你应该尝试寻找类似的东西:
<div id="voucher-13537">
这就是你想要的
谈到解析html文件,如果您还没有使用它,我建议您研究BeautifulSoup4模块。将带您到页面上的特定位置。+1用于提及BeautifulSoup4,这可能更适合操作