Ruby 使用Nokogiri获取HTML结构_Ruby_Html Parsing_Nokogiri

Ruby 使用Nokogiri获取HTML结构

ruby

Ruby 使用Nokogiri获取HTML结构,ruby,html-parsing,nokogiri,Ruby,Html Parsing,Nokogiri,我的任务是获取没有数据的文档的HTML结构。发件人： <html> <head> <title>Hello!</title> </head> <body id="uniq"> <h1>Hello World!</h1> </body> </html> 输出正是我想要的。文档。对于每个节点，删除不需要的内容。然后写出文件记住，Nokogiri可

我的任务是获取没有数据的文档的HTML结构。发件人：

<html>
  <head>
    <title>Hello!</title>
  </head>
  <body id="uniq">
    <h1>Hello World!</h1>
  </body>
</html>

输出正是我想要的。

文档。对于每个节点，删除不需要的内容。然后写出文件

记住，Nokogiri可以更改文档

听起来您想删除所有文本节点。您可以这样做：

doc.xpath('//text()').remove
puts doc

谢谢，拉里。我从url读取页面。您会建议将整个页面源代码写入文件并从那里进行操作？您的意思是在开始时加载文档？您可以直接从URL加载到nokogiri。请参见doc=Nokogiri:：HTML（open（“trial.HTML”））放置doc.xpath（“//text（）”）。remove给出以下结果：Hello！你好，世界！这与我想要的正好相反..可能是

doc = Nokogiri::HTML(open("test.html"))
  doc.at_css("html").traverse do |node|
    if node.text?
      node.remove
    end
  end
    puts doc

doc.xpath('//text()').remove
puts doc