Web scraping 如何使用Scrapy从网站上刮取地址?

Web scraping 如何使用Scrapy从网站上刮取地址?,web-scraping,scrapy,scrape,Web Scraping,Scrapy,Scrape,我正在使用Scrapy,我需要从给定域的“联系我们”页面中刮取地址。这些域名是谷歌搜索api的结果,因此我不知道网页的确切结构是什么。这种刮擦可能吗?任何例子都很好。提供几个例子有助于做出更好的回答,但总体思路可能是: 查找“联系我们”链接 按照链接并提取地址 假设你没有任何关于网站的信息 让我们关注第一个问题 这里的主要问题是网站的结构不同,严格来说,您无法建立一个100%可靠的方式来查找“联系我们”页面。但是,您可以“涵盖”最常见的情况: 在a标签后面加上“联系我们”、“联系”、“关于

我正在使用Scrapy,我需要从给定域的“联系我们”页面中刮取地址。这些域名是谷歌搜索api的结果,因此我不知道网页的确切结构是什么。这种刮擦可能吗?任何例子都很好。

提供几个例子有助于做出更好的回答,但总体思路可能是:

  • 查找“联系我们”链接
  • 按照链接并提取地址
假设你没有任何关于网站的信息

让我们关注第一个问题

这里的主要问题是网站的结构不同,严格来说,您无法建立一个100%可靠的方式来查找“联系我们”页面。但是,您可以“涵盖”最常见的情况:

  • a
    标签后面加上“联系我们”、“联系”、“关于我们”、“关于”等字样
  • 检查
    /关于
    /联系我们
    和类似端点,例如:
  • 遵循所有包含
    联系人
    关于
    等文本的链接
根据这些,您可以为您的应用程序构建一组


第二个问题并不简单——您不知道地址在页面上的位置(可能页面上不存在地址),也不知道地址格式。你可能需要潜入和

因此,您建议首先查找“联系我们”页面,然后在该页面上查找地址。你认为用正则表达式来定位pincode是个好主意吗?@DharmanshuKamra这是可能的,但编写一个支持所有可能的地址格式的表达式可能并不容易。很难说得更多。希望有帮助。