Proxy 使刮板机器人看起来更像人类的方法

Proxy 使刮板机器人看起来更像人类的方法,proxy,web-scraping,vpn,Proxy,Web Scraping,Vpn,由于我用来搜索某些产品的网站API的限制,我不得不用html抓取它的产品页面。并没有其他方法,因为它只提供有限制的免费API。我只需要它的API返回10到100倍的项目,这意味着即使我调用它5次,它也会像调用1次一样返回相同的产品集 我不需要在短时间内刮掉大量的页面。通常情况下,刮取机器人会在几分钟内刮取所有数据。对我来说,几个小时是可以接受的,所以我的刮刀可以更像一个人 问题是:有什么方法可以让我的刮板看起来像一个普通用户 首先,在短时间内少打电话 也许可以使用无头浏览器 使用vpn?还是代理

由于我用来搜索某些产品的网站API的限制,我不得不用html抓取它的产品页面。并没有其他方法,因为它只提供有限制的免费API。我只需要它的API返回10到100倍的项目,这意味着即使我调用它5次,它也会像调用1次一样返回相同的产品集

我不需要在短时间内刮掉大量的页面。通常情况下,刮取机器人会在几分钟内刮取所有数据。对我来说,几个小时是可以接受的,所以我的刮刀可以更像一个人

问题是:有什么方法可以让我的刮板看起来像一个普通用户

  • 首先,在短时间内少打电话
  • 也许可以使用无头浏览器
  • 使用vpn?还是代理?或者两者都有
  • 其他的指标是什么


    注意:在我的例子中,刮取是实现我想要的东西的唯一方法,因为API不起作用。因此,毫无疑问我应该使用API还是刮片。我只能用刮削法。

    你基本上朝着正确的方向前进

    然而,我怀疑您并没有真正掌握API(或者它是一个奇怪的API),如果
    调用它5次,它将返回相同的产品集,就好像它是一次调用一样。
    API应该能够让用户访问所有可能的数据(尽管有频率限制)

    您询问的项目包括:

  • 在短时间内打更少的电话有点正确,但您仍然应该清楚特定站点可以接受的请求频率(未被检测到,也没有带宽限制)
  • 使用无头浏览器对放弃cookie,保持匿名
  • 使用vpn?还是代理代理是的,请使用适当的代理服务,该服务将为您提供不被检测到的足够灵活性。VPN并没有帮助,因为网络节点(您从中获取)数量有限,并且具有静态IP(基本上)
  • 我想可能会对你有所帮助