Html 用Ruby获取页面上所有href内容的最简单方法？_Html_Ruby_Regex_Parsing_Html Parsing

Html 用Ruby获取页面上所有href内容的最简单方法？

html ruby regex parsing

Html 用Ruby获取页面上所有href内容的最简单方法？,html,ruby,regex,parsing,html-parsing,Html,Ruby,Regex,Parsing,Html Parsing,我正在用Ruby编写一个简单的网络爬虫，我需要获取页面上的所有href内容。最好的方法是什么，或者任何其他网页源解析，因为有些页面可能无效，但我仍然希望能够解析它们有没有好的RubyHTML解析器可以进行有效性不可知的解析，或者用regexp手工解析是最好的方法可以在非XHTML页面上使用XPath吗？看一看。简短示例： require 'open-uri' require 'nokogiri' doc = Nokogiri::HTML(open('http://www.google.com

我正在用Ruby编写一个简单的网络爬虫，我需要获取页面上的所有

href

内容。最好的方法是什么，或者任何其他网页源解析，因为有些页面可能无效，但我仍然希望能够解析它们

有没有好的RubyHTML解析器可以进行有效性不可知的解析，或者用regexp手工解析是最好的方法

可以在非XHTML页面上使用XPath吗？

看一看。简短示例：

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end

看一看。简短示例：

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end

看一看。我很确定它有方法来抓取页面中的所有链接。

看一看。我很肯定它有方法来抓取页面中的所有链接