Web scraping 如何使用Scrapy从网站上刮取地址？_Web Scraping_Scrapy_Scrape

Web scraping 如何使用Scrapy从网站上刮取地址？

web-scraping scrapy

Web scraping 如何使用Scrapy从网站上刮取地址？,web-scraping,scrapy,scrape,Web Scraping,Scrapy,Scrape,我正在使用Scrapy，我需要从给定域的“联系我们”页面中刮取地址。这些域名是谷歌搜索api的结果，因此我不知道网页的确切结构是什么。这种刮擦可能吗？任何例子都很好。提供几个例子有助于做出更好的回答，但总体思路可能是：查找“联系我们”链接按照链接并提取地址假设你没有任何关于网站的信息让我们关注第一个问题这里的主要问题是网站的结构不同，严格来说，您无法建立一个100%可靠的方式来查找“联系我们”页面。但是，您可以“涵盖”最常见的情况：在a标签后面加上“联系我们”、“联系”、“关于

我正在使用Scrapy，我需要从给定域的“联系我们”页面中刮取地址。这些域名是谷歌搜索api的结果，因此我不知道网页的确切结构是什么。这种刮擦可能吗？任何例子都很好。

提供几个例子有助于做出更好的回答，但总体思路可能是：

查找“联系我们”链接
按照链接并提取地址

假设你没有任何关于网站的信息

让我们关注第一个问题

这里的主要问题是网站的结构不同，严格来说，您无法建立一个100%可靠的方式来查找“联系我们”页面。但是，您可以“涵盖”最常见的情况：

在
```
a
```
标签后面加上“联系我们”、“联系”、“关于我们”、“关于”等字样
检查
```
/关于
```
，
```
/联系我们
```
和类似端点，例如：
遵循所有包含
```
联系人
```
，
```
关于
```
等文本的链接

根据这些，您可以为您的应用程序构建一组

第二个问题并不简单——您不知道地址在页面上的位置（可能页面上不存在地址），也不知道地址格式。你可能需要潜入和

因此，您建议首先查找“联系我们”页面，然后在该页面上查找地址。你认为用正则表达式来定位pincode是个好主意吗？@DharmanshuKamra这是可能的，但编写一个支持所有可能的地址格式的表达式可能并不容易。很难说得更多。希望有帮助。