Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby/22.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Ruby提供的网页抓取宝石/工具_Ruby_Html Parsing_Lxml_Scrape - Fatal编程技术网

Ruby提供的网页抓取宝石/工具

Ruby提供的网页抓取宝石/工具,ruby,html-parsing,lxml,scrape,Ruby,Html Parsing,Lxml,Scrape,我正试图用我正在编写的Ruby脚本来抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念 我想抓取的一些页面示例如下: http://finance.yahoo.com/q/pr?s=SPY+Profile http://finance.yahoo.com/q/hl?s=SPY+Holdings http://www.marketwatch.com/tools/mutual-fund/list/V 你推荐Ruby使用哪些网页抓取工具,为什么?请记住,有成千上万的股票基金,所以

我正试图用我正在编写的Ruby脚本来抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合价值投资理念

我想抓取的一些页面示例如下:

http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
你推荐Ruby使用哪些网页抓取工具,为什么?请记住,有成千上万的股票基金,所以我使用的任何工具都必须相当快


我是Ruby新手,但我有使用lxml在Python()中抓取网页的经验。一旦下载了5000多种股票的页面,lxml就可以在几分钟内将其全部删除。(我记得我试过BeautifulSoup,但因为速度太慢而拒绝了它。)

Ruby中有很多类似的
刮花宝石。我建议
Nokogiri
清理
静态网页
。如果您正在抓取
动态网页
(指点击按钮、提交表单等)。我建议在内部使用
Nokogiri

我在上看到了HTML解析解决方案列表。我选择Nokogiri,因为它是唯一一个仍然活跃的API。

雅虎财经实际上有很多可用的API,你应该使用其中的一个。Hpricot不再有维护者。我建议使用Nokogiri:)