使用nokogiri保留间距的Strip html

使用nokogiri保留间距的Strip html,html,ruby,Html,Ruby,好的,我想做的是剥离我的html文件的内容,现在是本地的,然后把它放到一个文件中。这部分工作,但当我这样做时,它会去掉所有的间距,例如,我有一个H1标记和一个P标记,使用下面的代码我运行它,剥离的内容放在文件中的d,但它在一行上,我想被打断成多行 require "rubygems" require "nokogiri" my_html = open("./my_html.html") File.open("./no_html.txt", "a+") do |file| file.puts

好的,我想做的是剥离我的html文件的内容,现在是本地的,然后把它放到一个文件中。这部分工作,但当我这样做时,它会去掉所有的间距,例如,我有一个H1标记和一个P标记,使用下面的代码我运行它,剥离的内容放在文件中的d,但它在一行上,我想被打断成多行

require "rubygems"
require "nokogiri"

my_html = open("./my_html.html")
File.open("./no_html.txt", "a+") do |file| 
 file.puts Nokogiri::HTML(my_html).text
end

如果要拆分从Nokogiri::HTMLmy_html.text返回的字符串,可以使用Stringscan:

如果您想美化HTML,请使用

 Nokogiri::HTML(my_html,&:noblanks)
正如评论中提到的SO post@Mircea所指出的那样。

看看这个。这可能就是你要找的。
 Nokogiri::HTML(my_html,&:noblanks)