Proxy 如何在internet上爬行以搜索http代理?
例如,我看到许多站点提供免费的http代理列表,我想编写一个脚本,从internet而不是从这些站点搜索http代理 我在谷歌上搜索了很多,但找不到任何关于在网上搜索http代理的文章或博客Proxy 如何在internet上爬行以搜索http代理?,proxy,network-programming,web-crawler,network-protocols,http-proxy,Proxy,Network Programming,Web Crawler,Network Protocols,Http Proxy,例如,我看到许多站点提供免费的http代理列表,我想编写一个脚本,从internet而不是从这些站点搜索http代理 我在谷歌上搜索了很多,但找不到任何关于在网上搜索http代理的文章或博客 任何想法都会受到欢迎。几个月前,我需要同样的想法,但最后我放弃了通过谷歌搜索获得它们的想法,因为找到的代理已经过时了 我用另一种方式解决了这个问题,现在我每小时大约得到1K个新的代理,这对我来说已经足够了 作为我上一个基于zeromq/mongo/php/casperjs的全功能抓取平台项目的一部分,我构建
任何想法都会受到欢迎。几个月前,我需要同样的想法,但最后我放弃了通过谷歌搜索获得它们的想法,因为找到的代理已经过时了 我用另一种方式解决了这个问题,现在我每小时大约得到1K个新的代理,这对我来说已经足够了 作为我上一个基于zeromq/mongo/php/casperjs的全功能抓取平台项目的一部分,我构建了一个免费代理爬虫程序,我认为它可以满足您的需要,但在我的案例15中,它针对特定的freeproxies站点,在原始html上使用简单的xpath/regex和php/curl,在浏览器评估的html上使用casperjs提取代理列表,验证代理的可用性,并对其进行geoip,使其可按区域、性能等进行过滤 我建议您也这样做,首先确定有效的免费代理源,然后根据需要频繁地删除它们,其中大多数每隔一小时左右更新一次免费列表
希望对您有所帮助有些服务可以提供有效的代理列表。我总是使用专门有我需要的代理的 要获取代理,只需发出以下请求:
https://gimmeproxy.com/api/getProxy
您将获得包含所有代理数据的JSON响应,稍后可根据需要使用这些数据:
{
"supportsHttps": true,
"protocol": "socks5",
"ip": "219.162.202.82",
"port": "915",
"get": true,
"post": true,
"cookies": true,
"referer": true,
"user-agent": true,
"anonymityLevel": 1,
"websites": {
"example": true,
"google": false,
"amazon": true
},
"country": "BR",
"tsChecked": 1517952910,
"curl": "socks5://219.162.202.82:915",
"ipPort": "219.162.202.82:915",
"type": "socks5",
"speed": 37.78,
"otherProtocols": {}
}