如何在ruby 1.8.7中将网页撇号(&;8217;)转换为ascii 39
差不多就是这样。我用Nokogiri来刮一个网页,它有’;字符,我不知道如何进行转换。以下是我尝试过的:如何在ruby 1.8.7中将网页撇号(&;8217;)转换为ascii 39,ruby,Ruby,差不多就是这样。我用Nokogiri来刮一个网页,它有’;字符,我不知道如何进行转换。以下是我尝试过的: str.gsub(/’/,"'") str.gsub("’","'") str.gsub("ΓÇÖ","'") # that's how it looks when I do a puts (在上面,在’和“;”之间没有空格,但是如果我不把空格放进去,那么就把它转换成撇号——残酷、残酷的讽刺!) 我肯定这在某个地方有涉及,
str.gsub(/’/,"'")
str.gsub("’","'")
str.gsub("ΓÇÖ","'") # that's how it looks when I do a puts
(在上面,在’和“;”之间没有空格,但是如果我不把空格放进去,那么就把它转换成撇号——残酷、残酷的讽刺!)
我肯定这在某个地方有涉及,但在这里或网上找不到解决方案
TIA应该可以工作
我是从以下方面得到的:
''。发送至
=> "\342\200\231"
可以替换的其他html字符():
我取消了检查(=回答),因为虽然这个解决方案在1.8.7中非常有效,但在使用1.9.1时,我得到了“gsub”:不兼容的编码regexp匹配(ASCII-8BIT regexp与UTF-8字符串)(encoding::CompatibilityError)。我想这里的管理员更喜欢我“重新打开”“这个问题,而不是发布一个几乎相同的问题。这对1.8.7非常有效,谢谢。对于1.9.1,我发现,这给出了我在原始帖子评论中提到的错误。对于1.9.1,我必须使用str.gsub(’;,“”)sheesh!
"\342\200\176" - "'"
"\342\200\177" - "'"
"\342\200\230" - "'"
"\342\200\231" - "'"
"\342\200\232" - ','
"\342\200\233" - "'"
"\342\200\234" - '"'
"\342\200\235" - '"'
"\342\200\041" - '-'
"\342\200\174" - '-'
"\342\200\220" - '-'
"\342\200\223" - '-'
"\342\200\224" - '--'
"\342\200\225" - '--'
"\342\200\042" - '--'
"\342\200\246" - '...'