在ruby中的HTML代码中找到图像和引用

在ruby中的HTML代码中找到图像和引用,html,ruby-on-rails,ruby,Html,Ruby On Rails,Ruby,我需要用ruby制作一个程序,通过命令行参数(argv)指定一个Internet地址,返回找到的图像列表(HTML中的图像响应标记“”)和所有链接的列表,这些链接是Internet地址,用于链接其他页面(HTML中的链接响应标签) 到目前为止,用符号>和分隔页面的代码字符串 目前的代码 require 'net/http' pagina= Net::HTTP.get(ARGV[0], '/index.html') xx = pagina.split(/[<,>]/) puts xx

我需要用ruby制作一个程序,通过命令行参数(argv)指定一个Internet地址,返回找到的图像列表(HTML中的图像响应标记“”)和所有链接的列表,这些链接是Internet地址,用于链接其他页面(HTML中的链接响应标签)

到目前为止,用符号>和分隔页面的代码字符串 目前的代码

require 'net/http'
pagina= Net::HTTP.get(ARGV[0], '/index.html')
xx = pagina.split(/[<,>]/)
puts xx
puts xx.scan(/a href=/)
需要“net/http”
pagina=Net::HTTP.get(ARGV[0],“/index.html”)
xx=分页拆分(/[]/)
放入xx
放置xx.scan(/a href=/)

使用HTML解析器。例如:


8月月月日日日,本月月月月日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方方你的正则表达式方法将完全看不见代码。使用适当的解析库,因为HTML看起来很难。
require 'net/http'
require 'nokogiri'

pagina = Net::HTTP.get(ARGV[0], '/index.html')
Nokogiri::HTML(pagina).css('a').map { |link| link['href'] }