R 清理推文:什么是UTF8和非UTF8字符

R 清理推文:什么是UTF8和非UTF8字符,r,R,我试图分析从Twitter中提取的推文语料库。许多tweet以非UTF字符显示 例如,一条推文的一条推文是:“一条推文是:一条推文是:一条推文是:“一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条是:一条是:一条是“1951951951951955年的1951955年的自自1955年自1955年自195年自自195年自自自自自自195年自自自自自自195年自自自自自自自自195年自195年自自自195年自自自自自自自195年自自自自自195年自

我试图分析从Twitter中提取的推文语料库。许多tweet以非UTF字符显示

例如,一条推文的一条推文是:“一条推文是:一条推文是:一条推文是:“一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条推文是:一条是:一条是:一条是“1951951951951955年的1951955年的自自1955年自1955年自195年自自195年自自自自自自195年自自自自自自195年自自自自自自自自195年自195年自自自195年自自自自自自自195年自自自自自195年自195年自自195年自195年自自自195年自195年自195年自195年自自自自195年自195年自195年自195年自自自自自195年自195年自195年自195年自自自自195年自195年自自195年自自195┱šššššššššššš“ShotbyShotorg:一名未接种疫苗的儿童如何引发明尼苏达州麻疹爆发”


我不熟悉这些非字母数字字符,也不熟悉如何转换/排除这些字符。这些是垃圾字符还是需要转换?谢谢。

我找到了原始推文:。从这条推文中,很明显“垃圾”文本应该是日语

原文如下:

〔1〕米国]一人のワクチン未接種の子どもから広がった麻疹、の教訓。

不知何故,您的文本经历了两轮mojibake化:它被编码为UTF-8,解码为Windows代码页1252(CP-1252),再次编码为UTF-8,并再次解码为CP-1252。不幸的是,由于CP-1252编码无法完全解码所有UTF-8字节,因此无法从您发布的内容中恢复文本。但是,快速Python脚本会恢复几个字符,足以确认它是如何损坏的:

本次比赛的代码>>t>在该场比赛中的其他比赛的成绩是在该场比赛的比赛中,该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场场195195195195195195195195195195195195195195195年的自自自自自自自自自自自自自自自自自自自自自195195195195195195195195195195年年年自自自自自自自自自自自自自自自自自自自自自自自195195195195195195195年年年年自自自自自自自195年Úššššššššš“¹ã€ 㠮教訓。' 打印(t.encode('cp1252',errors='replace')。解码('utf8',errors='replace')。编码('cp1252',errors='replace')。解码('utf8',errors='replace')) 这将产生:

〔1〕米国]一人� �ワク� ン未接種� ��\ � �も� �ら広� �� �� �麻疹� � �教訓。


编辑:一项往返分析(提取原始文本并对其进行两次糟糕的编码)显示,它可能使用CP-1252,而不是ISO-8859-1;编码在大多数代码点上都是相同的。该帖子已编辑为使用CP-1252。我发现了原始推文:。从这条推文中可以清楚地看出,“垃圾”文本应该是日语

原文如下:

〔1〕米国]一人のワクチン未接種の子どもから広がった麻疹、の教訓。

不知何故,您的文本经历了两轮mojibake化:它被编码为UTF-8,解码为Windows代码页1252(CP-1252),再次编码为UTF-8,并再次解码为CP-1252。不幸的是,由于CP-1252编码无法完全解码所有UTF-8字节,因此无法从您发布的内容中恢复文本。但是,快速Python脚本会恢复几个字符,足以确认它是如何损坏的:

本次比赛的代码>>t>在该场比赛中的其他比赛的成绩是在该场比赛的比赛中,该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场比赛是在该场场195195195195195195195195195195195195195195195年的自自自自自自自自自自自自自自自自自自自自自195195195195195195195195195195年年年自自自自自自自自自自自自自自自自自自自自自自自195195195195195195195年年年年自自自自自自自195年Úššššššššš“¹ã€ 㠮教訓。' 打印(t.encode('cp1252',errors='replace')。解码('utf8',errors='replace')。编码('cp1252',errors='replace')。解码('utf8',errors='replace')) 这将产生:

〔1〕米国]一人� �ワク� ン未接種� ��\ � �も� �ら広� �� �� �麻疹� � �教訓。


编辑:往返分析(提取原始文本并对其进行两次错误编码)显示可能使用了CP-1252,而不是ISO-8859-1;编码在大多数代码点上是相同的。文章已编辑为使用CP-1252。这些字符看起来像UTF-8字符,被错误地解码为拉丁语-1/ISO-8859-1。它们不是垃圾字符。这些字符看起来像UTF-8字符,被错误地解码为拉丁语-1/ISO-8859-1.它们不是垃圾字符。