Ruby 将UTF-8空格更改为可正则表达式的空格
我有以下代码,可以用Nokogiri解析HTML文档:Ruby 将UTF-8空格更改为可正则表达式的空格,ruby,regex,encoding,utf-8,Ruby,Regex,Encoding,Utf 8,我有以下代码,可以用Nokogiri解析HTML文档: td.next_element.text.scan(/\A[^(]+/).first.gsub(/\s+/, " ").strip 还有一个带有正则表达式的case语句,该正则表达式具有\s+,并且没有捕获任何内容。我试图使用strip,但它什么也没用 在使用上面的gsub行进行测试后,我发现空格的编码方式存在问题td.next_element.text[-2].ord返回的不是我预期的32,而是160。我意识到我的文档是UTF-8而不是
td.next_element.text.scan(/\A[^(]+/).first.gsub(/\s+/, " ").strip
还有一个带有正则表达式的case
语句,该正则表达式具有\s+
,并且没有捕获任何内容。我试图使用strip
,但它什么也没用
在使用上面的gsub
行进行测试后,我发现空格的编码方式存在问题td.next_element.text[-2].ord
返回的不是我预期的32,而是160。我意识到我的文档是UTF-8而不是ASCII,160是一个不间断的空格
我想我应该能做到这一点:
case td.text.strip.downcase.gsub(/\xA0|\xC2/, ' ')
问题是,我明白了
Encoding::CompatibilityError
(incompatible encoding regexp match (ASCII-8BIT regexp with UTF-8 string)):
我该怎么办?另外,正则表达式不是应该匹配所有空格,而不仅仅是ASCII吗?添加注释
#encoding:UTF-8
作为脚本的第一行;使用/[:space:][]/
查找Unicode空格。添加注释#编码:UTF-8
作为脚本的第一行;使用/[:space:][]/
查找Unicode空白。您需要做的是设置输入数据的字符编码。我不是一个Ruby程序员,所以我不知道具体细节,但是应该有一些库来实现这一点。我确实找到了一篇相关文章:您需要做的是设置输入数据的字符编码。我不是一个Ruby程序员,所以我不知道具体细节,但是应该有一些库来实现这一点。我确实找到了一篇相关文章: