Html Gap.com在我尝试屏幕刮屏时重定向我

Html Gap.com在我尝试屏幕刮屏时重定向我,html,screen-scraping,Html,Screen Scraping,我们正在建立一个网站,允许用户收集和存储他们最喜欢的产品,从互联网上的所有地点到一个地点。我们有一个算法,通过读取源代码过滤掉并找到正确的图像。80%的网站工作正常,但有两家大公司正在阻止将我们从产品页面重定向到他们的主页 例如,此产品会选择gap.com主页的标题,而不是手头的产品 我们如何绕过此重定向,并允许我们的算法通过读取正确的源代码来收集正确的图像?我想您需要将scraper的用户代理字符串更改为类似于普通浏览器的字符串(默认情况下,您可能会发送类似curl或wget的字符串) 不过,

我们正在建立一个网站,允许用户收集和存储他们最喜欢的产品,从互联网上的所有地点到一个地点。我们有一个算法,通过读取源代码过滤掉并找到正确的图像。80%的网站工作正常,但有两家大公司正在阻止将我们从产品页面重定向到他们的主页

例如,此产品会选择gap.com主页的标题,而不是手头的产品


我们如何绕过此重定向,并允许我们的算法通过读取正确的源代码来收集正确的图像?

我想您需要将scraper的用户代理字符串更改为类似于普通浏览器的字符串(默认情况下,您可能会发送类似
curl
wget
的字符串)


不过,如果你以他们的方式发送了足够的流量,他们很有可能最终会注意到你,并以一种难以回避的方式关闭你。

首先,你可能会请律师研究你目标网站的服务条款,确保你不会遇到法律问题

在技术方面,在请求图像时设置。图像的引用者应该是嵌入图像的页面。服务器可以检查以确保正在请求图像以满足浏览器而不是图像捕获屏幕刮板的页面呈现



对有问题的图像进行一点测试后,它看起来不需要
Referer
标题。也许它只是简单地拒绝了一个不熟悉的用户代理,或者在请求中键入了一些其他奇怪的东西,比如缺少
Accept
头等等。

您必须使用Fiddler和firebug来解决它。比较curl和浏览器的标题。网站显然不希望你做你正在做的事情,你要求我们帮助你逃避他们阻止你的企图?