R PC/MAC/Ubuntu之间的非英语字符CSV编码错误

R PC/MAC/Ubuntu之间的非英语字符CSV编码错误,r,excel,csv,utf-8,R,Excel,Csv,Utf 8,这个问题困扰了一年。My R在打开包含简体中文字符的csv文件时遇到问题。我相信数据编码为GBK。我有三台不同语言和操作系统的计算机,打开同一个中文csv文件时,结果不一。有人能告诉我为什么结果不同吗 (1) Windows+English OS+English R and R studio:无法读取我的csv,即使我将其编码为UTF8、GBK,而您将其命名为中文编码 (2) Mac+EnglishOS+English R:能够在不强制编码的情况下读取中文csv(更新:在我将操作系统重新安装到

这个问题困扰了一年。My R在打开包含简体中文字符的csv文件时遇到问题。我相信数据编码为GBK。我有三台不同语言和操作系统的计算机,打开同一个中文csv文件时,结果不一。有人能告诉我为什么结果不同吗

  • (1) Windows+English OS+English R and R studio:无法读取我的csv,即使我将其编码为UTF8、GBK,而您将其命名为中文编码
  • (2) Mac+EnglishOS+English R:能够在不强制编码的情况下读取中文csv(更新:在我将操作系统重新安装到El字幕后,它无法正确打开我的csv)

  • (3) Windows+中文操作系统,+中文R:能够在不强制编码或gbk的情况下读取csv

  • (4) Windows+英文操作系统+中文R:无法
  • (5) Ubuntu英语操作系统,英语R:ABLE
  • 在windows情况下(英文和中文操作系统),笔记本可以正确打开csv,但在英文情况下excel不能。当我不能用excel打开我的csv时,我的r也不能
  • 如果我通过Google工作表聚合csv,我的excel可以打开我的csv,但R仍然不正常
R中的编码是如何工作的,为什么结果会随着操作系统语言的变化而变化

 read.csv(...,encoding=)

它可能与excel csv编码系统有关。如果您的windows操作系统是英语。excel可能无法正确打开CV。一个解决办法是使用google sheer或Ubuntu安装的表单将其聚合到csv,然后尝试使用r打开它。

我已经找到了解决方法。它处理包含简体中文字符的小于800M的大型文件。关键是您应该知道操作系统中的默认中文编码

Ubuntu使用UTF-8作为默认中文编码。因此,您应该将其编码为UTF-8,而不是GB18130或其他GB起始编码

  • (1) 下载Open Office(免费快速安装,具有更高的可用性) 文件大小大于Ubuntu中的Cals)

  • (2) 检测您的CSV编码。只需使用open office打开您的csv,然后选择显示您的汉字的编码方法

  • (3) 根据您的要求将您的csv保存到正确的编码系统 操作系统。默认窗口为GBK中文版,Ubuntu为 UTF8


这将解决您的文件大小问题和编码问题。您甚至不强制进行编码。正常的
read.csv
就可以了。

感谢您通知我
gbk
是一种可能性。我打开从网上银行下载的简体中文CSV文件时遇到问题,我尝试了
latin1
,我尝试了
iso-8859-1
,我尝试了
cp1252
,都没有用。但是gkb就是这么做的!