Ruby提供的网页抓取宝石/工具_Ruby_Html Parsing_Lxml_Scrape

Ruby提供的网页抓取宝石/工具

ruby

Ruby提供的网页抓取宝石/工具,ruby,html-parsing,lxml,scrape,Ruby,Html Parsing,Lxml,Scrape,我正试图用我正在编写的Ruby脚本来抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念我想抓取的一些页面示例如下： http://finance.yahoo.com/q/pr?s=SPY+Profile http://finance.yahoo.com/q/hl?s=SPY+Holdings http://www.marketwatch.com/tools/mutual-fund/list/V 你推荐Ruby使用哪些网页抓取工具，为什么？请记住，有成千上万的股票基金，所以

我正试图用我正在编写的Ruby脚本来抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念

我想抓取的一些页面示例如下：

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V

你推荐Ruby使用哪些网页抓取工具，为什么？请记住，有成千上万的股票基金，所以我使用的任何工具都必须相当快

我是Ruby新手，但我有使用lxml在Python（）中抓取网页的经验。一旦下载了5000多种股票的页面，lxml就可以在几分钟内将其全部删除。（我记得我试过BeautifulSoup，但因为速度太慢而拒绝了它。）

Ruby中有很多类似的

刮花宝石。我建议Nokogiri
清理静态网页
。如果您正在抓取动态网页
（指点击按钮、提交表单等）。我建议在内部使用Nokogiri
 我在上看到了HTML解析解决方案列表。我选择Nokogiri，因为它是唯一一个仍然活跃的API。
雅虎财经实际上有很多可用的API，你应该使用其中的一个。Hpricot不再有维护者。我建议使用Nokogiri:）