Ruby 使用Nokogiri获取HTML结构

Ruby 使用Nokogiri获取HTML结构,ruby,html-parsing,nokogiri,Ruby,Html Parsing,Nokogiri,我的任务是获取没有数据的文档的HTML结构。发件人: <html> <head> <title>Hello!</title> </head> <body id="uniq"> <h1>Hello World!</h1> </body> </html> 输出正是我想要的。文档。对于每个节点,删除不需要的内容。然后写出文件 记住,Nokogiri可

我的任务是获取没有数据的文档的HTML结构。发件人:

<html>
  <head>
    <title>Hello!</title>
  </head>
  <body id="uniq">
    <h1>Hello World!</h1>
  </body>
</html>
输出正是我想要的。

文档。对于每个节点,删除不需要的内容。然后写出文件


记住,Nokogiri可以更改文档

听起来您想删除所有文本节点。您可以这样做:

doc.xpath('//text()').remove
puts doc

谢谢,拉里。我从url读取页面。您会建议将整个页面源代码写入文件并从那里进行操作?您的意思是在开始时加载文档?您可以直接从URL加载到nokogiri。请参见doc=Nokogiri::HTML(open(“trial.HTML”))放置doc.xpath(“//text()”)。remove给出以下结果:Hello!你好,世界!这与我想要的正好相反..可能是
doc = Nokogiri::HTML(open("test.html"))
  doc.at_css("html").traverse do |node|
    if node.text?
      node.remove
    end
  end
    puts doc
doc.xpath('//text()').remove
puts doc