Ruby 从其他国家/地区代理/获取数据

Ruby 从其他国家/地区代理/获取数据,ruby,proxy,web-scraping,scraperwiki,Ruby,Proxy,Web Scraping,Scraperwiki,某些网站要求我们有一个特定的IP地址来显示某些信息,例如X国的广告。我想知道是否可以使用代理(最好是ruby代理)用我的ruby脚本@scraperwiki来获得结果,就像我在那个国家X一样。现在脚本在英国获得结果,如果我使用HTTP代理,我可以看到我想要正确检索数据的网站。问题是Scraperwiki不会像在X国那样返回网页是的。您应该使用Mechanize: require 'mechanize' agent = Mechanize.new agent.set_proxy host, por

某些网站要求我们有一个特定的IP地址来显示某些信息,例如X国的广告。我想知道是否可以使用代理(最好是ruby代理)用我的ruby脚本@scraperwiki来获得结果,就像我在那个国家X一样。现在脚本在英国获得结果,如果我使用HTTP代理,我可以看到我想要正确检索数据的网站。问题是Scraperwiki不会像在X国那样返回网页是的。您应该使用Mechanize:

require 'mechanize'
agent = Mechanize.new
agent.set_proxy host, port
page = agent.get url

现在调用
page#search
page#at
,就像处理Nokogiri文档一样。

我希望使用基于网络的代理的替代方法,因为它们太慢了。与其执行
doc=Nokogiri::HTML(open(queryurl)),不如执行doc=Nokogiri::HTML(open(http://webproxycountryX.xx? website=queryurl))
注意,这通常不被认为是数据挖掘。术语数据挖掘(正确地)用于高级统计数据分析,而不是数据收集。请使用更合适的标签,这将为您提供更好的答案。哇,效率更高,尽管结果似乎仍然来自英国。。已与sw联系。不幸的是,此解决方案似乎无法与ScraperwikiScraperwiki一起工作,因为它没有完全实现mechanize。只有下一个版本会。我从未见过scraperwiki的吸引力。只需设置一个免费的第二层ec2实例。您不必担心丢失库或有人更改框架并破坏您的脚本。