R 将unicode转换为可读字符串_R_Twitter_Unicode_Utf 8

R 将unicode转换为可读字符串

r twitter unicode utf-8

R 将unicode转换为可读字符串,r,twitter,unicode,utf-8,R,Twitter,Unicode,Utf 8,R中的我的对象包含以下从twitter中提取的unicode \xe0\xae\xa8\xe0\xae\x9f\xe0\xae\xbf\xe0\xae\x95\xe0\xae\xb0\xe0\xaf\x8d \xe0\xae\x9a\xe0\xaf\x82\xe0\xae\xb0\xe0\xaf\x8d\xe0\xae\xaf\xe0\xae\xaf\xe0\xae\xbe \xe0\xae\x9a\xe0\xaf\x86\xe0\xae\xaf\xe0\xaf\x8d\xe0\xae\xa4

R中的我的对象包含以下从twitter中提取的unicode

\xe0\xae\xa8\xe0\xae\x9f\xe0\xae\xbf\xe0\xae\x95\xe0\xae\xb0\xe0\xaf\x8d \xe0\xae\x9a\xe0\xaf\x82\xe0\xae\xb0\xe0\xaf\x8d\xe0\xae\xaf\xe0\xae\xaf\xe0\xae\xbe \xe0\xae\x9a\xe0\xaf\x86\xe0\xae\xaf\xe0\xaf\x8d\xe0\xae\xa4 \xe0\xae\x89\xe0\xae\xa4\xe0\xae\xb5\xe0\xae\xbf \xe0\xae\xae\xe0\xae\xbf\xe0\xae\x95 \xe0\xae\xae\xe0\xaf\x81\xe0\xae\x95\xe0\xaf\x8d\xe0\xae\x95\xe0\xae\xbf\xe0\xae\xaf\xe0\xae\xae\xe0\xae\xae\xae\xa9\xe0\xae\xae\xa4\xe0\xaf\x81！' -\xe0\xae\x9f\xe0\xaf\x86\xe0\xae\xb2\xe0\xaf\x8d\xe0\xae\x9f\xe0\xae\xbe\xe0\xae\xb5\xe0\xae\xbf\xe0\xae\xb2\xe0\xaf\x8d \xe0\xae\xa8\xe0\xaf\x86\xe0\xae\x95\xe0\xae\xbf\xe0\xae\xb4\xe0\xaf\x8d\xe0\xae\xa8\xe0\xaf\x8d\xe0\xae\xa4 \xe0\xae\x9a\xe0\xaf\x80\xe0\xae\xae\xe0\xae\xbe\xe0\xae\xa9\xe0\xaf\x8d

我需要将它们转换为人类可读的字符串。如果我把它放在一个字符串中，例如

x <- "\xe0\xae\xa8\xe0\xae\x9f\xe0\xae\xbf\xe0\xae\x95\xe0\xae\xb0\xe0\xaf\x8d \xe0\xae\x9a\xe0\xaf\x82\xe0\xae\xb0\xe0\xaf\x8d\xe0\xae\xaf\xe0\xae\xbe \xe0\xae\x9a\xe0\xaf\x86\xe0\xae\xaf\xe0\xaf\x8d\xe0\xae\xa4 \xe0\xae\x89\xe0\xae\xa4\xe0\xae\xb5\xe0\xae\xbf \xe0\xae\xae\xe0\xae\xbf\xe0\xae\x95 \xe0\xae\xae\xe0\xaf\x81\xe0\xae\x95\xe0\xaf\x8d\xe0\xae\x95\xe0\xae\xbf\xe0\xae\xaf\xe0\xae\xae\xe0\xae\xbe\xe0\xae\xa9\xe0\xae\xa4\xe0\xaf\x81!' - \xe0\xae\x9f\xe0\xaf\x86\xe0\xae\xb2\xe0\xaf\x8d\xe0\xae\x9f\xe0\xae\xbe\xe0\xae\xb5\xe0\xae\xbf\xe0\xae\xb2\xe0\xaf\x8d \xe0\xae\xa8\xe0\xaf\x86\xe0\xae\x95\xe0\xae\xbf\xe0\xae\xb4\xe0\xaf\x8d\xe0\xae\xa8\xe0\xaf\x8d\xe0\xae\xa4 \xe0\xae\x9a\xe0\xaf\x80\xe0\xae\xae\xe0\xae\xbe\xe0\xae\xa9\xe0\xaf\x8d"

x当您将诸如\xe0\xae\xa8\xe0…
之类的十六进制代码分配给字符串时，R不知道它们是如何解释的，因此它假定您计算机上当前语言环境的编码。在当今大多数基于Unix的现代系统上，这将是UTF-8，因此，例如在Mac上，字符串显示为
> x
[1] "நடிகர் சூர்யா செய்த உதவி மிக முக்கியமானது!' - டெல்டாவில் நெகிழ்ந்த சீமான்"

我认为这是正确的显示。谷歌翻译承认它是用泰米尔语写的
然而，在Windows上，它显示得难以理解。在我的Windows 10系统上，我看到
> x
[1] "à®¨à®Ÿà®¿à®•à®°à¯ à®šà¯‚à®°à¯à®¯à®¾ à®šà¯†à®¯à¯à®¤ à®‰à®¤à®µà®¿ à®®à®¿à®• à®®à¯à®•à¯à®•à®¿à®¯à®®à®¾à®©à®¤à¯!' - à®Ÿà¯†à®²à¯à®Ÿ

因为它使用与拉丁1编码对应的代码页，这对于该字符串是错误的。要使其在Windows上正确显示，您需要通过声明其编码来告诉R它是以UTF-8编码的：
Encoding(x) <- "UTF-8"

是俄语编码的ISO 8859-5。在本地编码的系统上，它会正确显示，但在我的系统上，它会使用十六进制代码显示。为了让它正确显示，我需要使用
y <- iconv(x, from="ISO8859-5", to="UTF-8")

y不知道为什么会关闭，这是个好问题。该字符串实际上是UTF-8编码的，并且将在Windows上显示为垃圾，除非您使用类似Encoding（x）@user2554330的方式声明它，如果您想发布答案，它将重新打开
y <- iconv(x, from="ISO8859-5", to="UTF-8")