Ruby 从其他国家/地区代理/获取数据_Ruby_Proxy_Web Scraping_Scraperwiki

Ruby 从其他国家/地区代理/获取数据

ruby proxy web-scraping

Ruby 从其他国家/地区代理/获取数据,ruby,proxy,web-scraping,scraperwiki,Ruby,Proxy,Web Scraping,Scraperwiki,某些网站要求我们有一个特定的IP地址来显示某些信息，例如X国的广告。我想知道是否可以使用代理（最好是ruby代理）用我的ruby脚本@scraperwiki来获得结果，就像我在那个国家X一样。现在脚本在英国获得结果，如果我使用HTTP代理，我可以看到我想要正确检索数据的网站。问题是Scraperwiki不会像在X国那样返回网页是的。您应该使用Mechanize： require 'mechanize' agent = Mechanize.new agent.set_proxy host, por

某些网站要求我们有一个特定的IP地址来显示某些信息，例如X国的广告。我想知道是否可以使用代理（最好是ruby代理）用我的ruby脚本@scraperwiki来获得结果，就像我在那个国家X一样。现在脚本在英国获得结果，如果我使用HTTP代理，我可以看到我想要正确检索数据的网站。问题是Scraperwiki不会像在X国那样返回网页是的。您应该使用Mechanize：

require 'mechanize'
agent = Mechanize.new
agent.set_proxy host, port
page = agent.get url

现在调用

page#search

或

page#at

，就像处理Nokogiri文档一样。

我希望使用基于网络的代理的替代方法，因为它们太慢了。与其执行

doc=Nokogiri:：HTML（open（queryurl）），不如执行doc=Nokogiri:：HTML（open(http://webproxycountryX.xx? website=queryurl））

注意，这通常不被认为是数据挖掘。术语数据挖掘（正确地）用于高级统计数据分析，而不是数据收集。请使用更合适的标签，这将为您提供更好的答案。哇，效率更高，尽管结果似乎仍然来自英国。。已与sw联系。不幸的是，此解决方案似乎无法与ScraperwikiScraperwiki一起工作，因为它没有完全实现mechanize。只有下一个版本会。我从未见过scraperwiki的吸引力。只需设置一个免费的第二层ec2实例。您不必担心丢失库或有人更改框架并破坏您的脚本。