Php 如何使用代理处理外部网站的IP块?

Php 如何使用代理处理外部网站的IP块?,php,curl,ip,web-scraping,simple-html-dom,Php,Curl,Ip,Web Scraping,Simple Html Dom,我正在做一个从网站中提取网络数据的剪贴项目。我已经制作了一个脚本来遍历URL和解析HTML内容,并将结构化内容放入我的数据库。该脚本运行良好,但最近该脚本被卡住,调查发现目标站点正在阻止我们的IP 我在这个项目中使用PHP/CURL,现在我在一个web请求中遇到了一个403错误-禁止访问。 这影响了我的脚本的工作,每次我遇到访问限制错误时,都无法从web请求中检索任何页面 我知道有很多刮擦礼仪需要遵守。因为我们无法预见他们是如何实现安全功能的,所以我对规范web请求调用感到困惑。 我正在使用弹性

我正在做一个从网站中提取网络数据的剪贴项目。我已经制作了一个脚本来遍历URL和解析HTML内容,并将结构化内容放入我的数据库。该脚本运行良好,但最近该脚本被卡住,调查发现目标站点正在阻止我们的IP

我在这个项目中使用PHP/CURL,现在我在一个web请求中遇到了一个403错误-禁止访问。 这影响了我的脚本的工作,每次我遇到访问限制错误时,都无法从web请求中检索任何页面

我知道有很多刮擦礼仪需要遵守。因为我们无法预见他们是如何实现安全功能的,所以我对规范web请求调用感到困惑。 我正在使用弹性IP处理amazon AWZ实例,因此我对他们何时/是否会解除对我的IP的禁令感到困惑

我听说过使用旋转代理方法进行刮片,这样目标服务器就不会经常阻止您。但我不确定它的实现


任何帮助都将不胜感激。如有必要,我可以提供任何附加信息。

未经允许进行大规模刮削不是一个好主意。你真的应该联系网站所有者,了解他们对scraper的立场,看看是否有任何官方的方法来获取你需要的数据。我不确定它的实现情况。这取决于您使用的代理类型。但是,中描述了所有可能的选项。您是否考虑联系网站所有者以安排数据交换?也许他们有一些你可以使用的API?