Proxy 如何在internet上爬行以搜索http代理?

Proxy 如何在internet上爬行以搜索http代理?,proxy,network-programming,web-crawler,network-protocols,http-proxy,Proxy,Network Programming,Web Crawler,Network Protocols,Http Proxy,例如,我看到许多站点提供免费的http代理列表,我想编写一个脚本,从internet而不是从这些站点搜索http代理 我在谷歌上搜索了很多,但找不到任何关于在网上搜索http代理的文章或博客 任何想法都会受到欢迎。几个月前,我需要同样的想法,但最后我放弃了通过谷歌搜索获得它们的想法,因为找到的代理已经过时了 我用另一种方式解决了这个问题,现在我每小时大约得到1K个新的代理,这对我来说已经足够了 作为我上一个基于zeromq/mongo/php/casperjs的全功能抓取平台项目的一部分,我构建

例如,我看到许多站点提供免费的http代理列表,我想编写一个脚本,从internet而不是从这些站点搜索http代理

我在谷歌上搜索了很多,但找不到任何关于在网上搜索http代理的文章或博客


任何想法都会受到欢迎。

几个月前,我需要同样的想法,但最后我放弃了通过谷歌搜索获得它们的想法,因为找到的代理已经过时了

我用另一种方式解决了这个问题,现在我每小时大约得到1K个新的代理,这对我来说已经足够了

作为我上一个基于zeromq/mongo/php/casperjs的全功能抓取平台项目的一部分,我构建了一个免费代理爬虫程序,我认为它可以满足您的需要,但在我的案例15中,它针对特定的freeproxies站点,在原始html上使用简单的xpath/regex和php/curl,在浏览器评估的html上使用casperjs提取代理列表,验证代理的可用性,并对其进行geoip,使其可按区域、性能等进行过滤

我建议您也这样做,首先确定有效的免费代理源,然后根据需要频繁地删除它们,其中大多数每隔一小时左右更新一次免费列表


希望对您有所帮助

有些服务可以提供有效的代理列表。我总是使用专门有我需要的代理的

要获取代理,只需发出以下请求:

https://gimmeproxy.com/api/getProxy
您将获得包含所有代理数据的JSON响应,稍后可根据需要使用这些数据:

{
  "supportsHttps": true,
  "protocol": "socks5",
  "ip": "219.162.202.82",
  "port": "915",
  "get": true,
  "post": true,
  "cookies": true,
  "referer": true,
  "user-agent": true,
  "anonymityLevel": 1,
  "websites": {
    "example": true,
    "google": false,
    "amazon": true
  },
  "country": "BR",
  "tsChecked": 1517952910,
  "curl": "socks5://219.162.202.82:915",
  "ipPort": "219.162.202.82:915",
  "type": "socks5",
  "speed": 37.78,
  "otherProtocols": {}
}