Ruby on rails 从文本文件(Ruby/Rails)读取字符串时出现顽固的字符编码错误
我一直在尝试导入一个由PDF阅读器应用程序SODA-PDF生成的长文本文件。源文档是PDF格式的脚本 转换后的文本文件在记事本中看起来很正常,但在尝试将文件读入字符串并对其进行操作时,会出现各种错误 我在各种线程中看到的以下方法似乎都不起作用:Ruby on rails 从文本文件(Ruby/Rails)读取字符串时出现顽固的字符编码错误,ruby-on-rails,ruby,ruby-on-rails-4,Ruby On Rails,Ruby,Ruby On Rails 4,我一直在尝试导入一个由PDF阅读器应用程序SODA-PDF生成的长文本文件。源文档是PDF格式的脚本 转换后的文本文件在记事本中看起来很正常,但在尝试将文件读入字符串并对其进行操作时,会出现各种错误 我在各种线程中看到的以下方法似乎都不起作用: clean1=Iconv.conv('ASCII//IGNORE', 'UTF8', s) 或 或 第一种方法,使用Iconv给出 Iconv::InvalidEncoding: invalid encoding ("ASCII", "UTF8")
clean1=Iconv.conv('ASCII//IGNORE', 'UTF8', s)
或
或
第一种方法,使用Iconv给出
Iconv::InvalidEncoding: invalid encoding ("ASCII", "UTF8")
调用时
第二种方法似乎有效,但在各种字符串操作(如
lines= s.split("\n") unless s.blank?
与
分割还是空白?将抛出异常
第三种方法也因“UTF-8中的字节序列无效”错误而失败
我对整个字符编码的事情很模糊,所以请原谅我的任何明显的愚蠢
我将尝试一个字符一个字符的过滤,但这是一种痛苦,因为我正在处理的文档可能有100多页,我希望有一个更简单的解决办法
Env:Win7 64/ruby 1.9.3p484 2013-11-22[i386-mingw32]/Rails 4.0.3我发现我的源文件是用ISO-8859-1编码的。能够转换为UTF-8,现在一切正常
Iconv::InvalidEncoding: invalid encoding ("ASCII", "UTF8")
lines= s.split("\n") unless s.blank?
ArgumentError: invalid byte sequence in UTF-8