Web scraping 如何使用Scrapy从网站上刮取地址?
我正在使用Scrapy,我需要从给定域的“联系我们”页面中刮取地址。这些域名是谷歌搜索api的结果,因此我不知道网页的确切结构是什么。这种刮擦可能吗?任何例子都很好。提供几个例子有助于做出更好的回答,但总体思路可能是:Web scraping 如何使用Scrapy从网站上刮取地址?,web-scraping,scrapy,scrape,Web Scraping,Scrapy,Scrape,我正在使用Scrapy,我需要从给定域的“联系我们”页面中刮取地址。这些域名是谷歌搜索api的结果,因此我不知道网页的确切结构是什么。这种刮擦可能吗?任何例子都很好。提供几个例子有助于做出更好的回答,但总体思路可能是: 查找“联系我们”链接 按照链接并提取地址 假设你没有任何关于网站的信息 让我们关注第一个问题 这里的主要问题是网站的结构不同,严格来说,您无法建立一个100%可靠的方式来查找“联系我们”页面。但是,您可以“涵盖”最常见的情况: 在a标签后面加上“联系我们”、“联系”、“关于
- 查找“联系我们”链接
- 按照链接并提取地址
- 在
标签后面加上“联系我们”、“联系”、“关于我们”、“关于”等字样a
- 检查
,/关于
和类似端点,例如:/联系我们
- 遵循所有包含
,联系人
等文本的链接关于
第二个问题并不简单——您不知道地址在页面上的位置(可能页面上不存在地址),也不知道地址格式。你可能需要潜入和 因此,您建议首先查找“联系我们”页面,然后在该页面上查找地址。你认为用正则表达式来定位pincode是个好主意吗?@DharmanshuKamra这是可能的,但编写一个支持所有可能的地址格式的表达式可能并不容易。很难说得更多。希望有帮助。