Ruby 使用Nokogiri获取HTML结构
我的任务是获取没有数据的文档的HTML结构。发件人:Ruby 使用Nokogiri获取HTML结构,ruby,html-parsing,nokogiri,Ruby,Html Parsing,Nokogiri,我的任务是获取没有数据的文档的HTML结构。发件人: <html> <head> <title>Hello!</title> </head> <body id="uniq"> <h1>Hello World!</h1> </body> </html> 输出正是我想要的。文档。对于每个节点,删除不需要的内容。然后写出文件 记住,Nokogiri可
<html>
<head>
<title>Hello!</title>
</head>
<body id="uniq">
<h1>Hello World!</h1>
</body>
</html>
输出正是我想要的。文档。对于每个节点,删除不需要的内容。然后写出文件
记住,Nokogiri可以更改文档 听起来您想删除所有文本节点。您可以这样做:
doc.xpath('//text()').remove
puts doc
谢谢,拉里。我从url读取页面。您会建议将整个页面源代码写入文件并从那里进行操作?您的意思是在开始时加载文档?您可以直接从URL加载到nokogiri。请参见doc=Nokogiri::HTML(open(“trial.HTML”))放置doc.xpath(“//text()”)。remove给出以下结果:Hello!你好,世界!这与我想要的正好相反..可能是
doc = Nokogiri::HTML(open("test.html"))
doc.at_css("html").traverse do |node|
if node.text?
node.remove
end
end
puts doc
doc.xpath('//text()').remove
puts doc