Web scraping 如何知道哪些公司保护网站?

Web scraping 如何知道哪些公司保护网站?,web-scraping,Web Scraping,受cloudflare保护。但这在genecards.org上的HTML网页上并不清楚。有没有一个系统的方法来为一些网站找出这类信息?谢谢。除了触发Cloudflare机器人挑战外,您还可以尝试向公众介绍CDN/WAF/一些反机器人服务,如下所示: 进行一次测试,查找他们使用的名称服务器/DNS主机提供商(通常对于Cloudflare客户,它是*.ns.Cloudflare.com),或者该名称解析为什么IP。这两种方法都不是100%可靠,因为这可能只是一个面向公众的外部层,而内部可能是一个面向

受cloudflare保护。但这在genecards.org上的HTML网页上并不清楚。有没有一个系统的方法来为一些网站找出这类信息?谢谢。

除了触发Cloudflare机器人挑战外,您还可以尝试向公众介绍CDN/WAF/一些反机器人服务,如下所示: 进行一次测试,查找他们使用的名称服务器/DNS主机提供商(通常对于Cloudflare客户,它是*.ns.Cloudflare.com),或者该名称解析为什么IP。这两种方法都不是100%可靠,因为这可能只是一个面向公众的外部层,而内部可能是一个面向非公众的WAF。IP也可以改变。但这只是一个开始


在本例中,对于genecards.org,它实际上并没有显示Cloudflare,而是根据genecards.org解析到的IP地址,将Imperva Incapsula CDN显示为外层。“CDN”部分中的快速检查确认了这一点。

使用
nslookup
我只能看到IP地址,如何查看公司信息?使用上面的“NS lookup”链接,它会显示IP下的公司名称(Incapsula Inc(AS19551))。否则,您可以使用任何IP whois工具