Ruby Nokogiri-编码问题-UTF8字符无效

Ruby Nokogiri-编码问题-UTF8字符无效,ruby,nokogiri,Ruby,Nokogiri,谁能看看这个。我认为打这个电话时有无效的UTF-8字符 Nokogiri::HTML(打开(“http://www.next.co.uk/x502062s2) 如果有办法的话?这就是问题所在吗?我正在写一个新的开源屏幕抓取器,用于产品信息捕获(当一个站点不提供提要时),在任何人说我在做一些小动作之前:-)在将任何内容传递给Nokogiri之前,您可以对页面内容进行编码,并使用Iconv忽略所有无效的UTF字符 我是这样用的: ic = Iconv.new('UTF-8//IGNORE', 'UT

谁能看看这个。我认为打这个电话时有无效的UTF-8字符

Nokogiri::HTML(打开(“http://www.next.co.uk/x502062s2)


如果有办法的话?这就是问题所在吗?我正在写一个新的开源屏幕抓取器,用于产品信息捕获(当一个站点不提供提要时),在任何人说我在做一些小动作之前:-)

在将任何内容传递给Nokogiri之前,您可以对页面内容进行编码,并使用Iconv忽略所有无效的UTF字符

我是这样用的:

ic = Iconv.new('UTF-8//IGNORE', 'UTF-8')
valid_string = ic.iconv(open('http://example.com').read)

您也可以选中“.”

确定一些奇怪的事情。。。如果将其更改为Nokogiri.parse(open(uri.to_.s).read),则一切正常。我需要找出原因。你使用的是什么版本的Ruby、Nokogiri和OpenURI?我似乎没有收到任何错误。