Html 德文;umlauts“;

Html 德文;umlauts“;,html,parsing,internationalization,nokogiri,Html,Parsing,Internationalization,Nokogiri,我对这段代码有一个问题,我得到了错误的html编码的德语umlauts: require 'rubygems' require 'nokogiri' require 'open-uri' time = Time.new url = "http://mobile.bahn.de/bin/mobil/bhftafel.exe/dox?input=Richard-Strauss-Stra%DFe%2C+M%FCnchen%23625127&date=" + time.strftime

我对这段代码有一个问题,我得到了错误的html编码的德语umlauts:

require 'rubygems'
require 'nokogiri'
require 'open-uri'

time = Time.new

url = "http://mobile.bahn.de/bin/mobil/bhftafel.exe/dox?input=Richard-Strauss-Stra%DFe%2C+M%FCnchen%23625127&date=" + 
  time.strftime("%d%m%Y") +
  "&time=" +
  time.strftime("%H") +
  "%3A" +
  time.strftime("%M") +
  "&productsFilter=1111111111000000&REQTrain_name=&maxJourneys=10&start=Suchen&boardType=Abfahrt&ao=yes"

doc = Nokogiri::HTML(open(url))
doc.xpath('//div//p').remove
doc.encoding = 'UTF-8'
doc = doc.xpath('//div').each do |node|
  text = node.text.gsub(/\n([ \t]*\n)+/,"\n",).gsub(/^\s+|\s+$/,'').gsub("Startseite", '').gsub("Impressum", '')
  puts text unless text.empty?
end

你的代码的结果在我的计算机上是完美的。所有Umlaute都正确显示,不是作为HTML实体,而是作为真实的Umlaute。也许可以检查一下你的Ruby版本:Ruby 1.8在非ASCII字符方面有问题,Ruby 1.9解决了这个问题。

你说的“获取错误的html编码的德语umlauts”是什么意思?如果在终端窗口中显示它们,则它们可能是正确的,但终端无法识别UTF-8。