处理javascript生成的动态HTML的最佳web抓取RubyonRails库

处理javascript生成的动态HTML的最佳web抓取RubyonRails库,html,ruby-on-rails,dynamic,rubygems,web-scraping,Html,Ruby On Rails,Dynamic,Rubygems,Web Scraping,我正在使用RubyonRails和Mechanize库来清理商店网站。问题是,很多时候我无法抓取某些元素。然而,当我在网站上“查看源代码”时,我可以看到这一点 例如,沃尔玛的分类(在下面的例子中,它是“健康”)是不可预测的。我认为这是因为它是动态生成的HTML(例如,来自javascript)。为了解决这个问题,我需要一个浏览器来处理web请求 我还在AmazonEC2上使用linux机器。要安装用于用户界面抓取的浏览器是很困难的。有什么Rails gem/插件可以帮助我吗 谢谢大家 你的问题

我正在使用RubyonRails和Mechanize库来清理商店网站。问题是,很多时候我无法抓取某些元素。然而,当我在网站上“查看源代码”时,我可以看到这一点

例如,沃尔玛的分类(在下面的例子中,它是“健康”)是不可预测的。我认为这是因为它是动态生成的HTML(例如,来自javascript)。为了解决这个问题,我需要一个浏览器来处理web请求

我还在AmazonEC2上使用linux机器。要安装用于用户界面抓取的浏览器是很困难的。有什么Rails gem/插件可以帮助我吗


谢谢大家

你的问题,换言之,是什么样的简单方法可以像web浏览器一样解析HTML文档,然后针对解析后的DOM执行文档中的JavaScript?不运行实际的web浏览器

这有点棘手

然而,一切都没有失去。看一看。虽然创建用于验收测试,但您也可以将其用于文档的一般查询。要执行JavaScript,您需要使用支持它的驱动程序,因为您希望它是“无头”(无浏览器GUI),这可能意味着使用或

另一个选项可能是,我对它一无所知,只知道它似乎做了你想做的事情,但也似乎不再被维护,所以YMMV