将带有西里尔字母的spss文件读入R
我正在尝试将几个SPSS文件读入R,其中包括将带有西里尔字母的spss文件读入R,r,spss,cyrillic,R,Spss,Cyrillic,我正在尝试将几个SPSS文件读入R,其中包括Cyrillic文本。所有文件都在西里尔文中。当我将大多数代码读入R时,控制台会显示“从CP1251重新编码”。然而,当我读到一些文件时,也在西里尔文中,上面写着“从CP1252重新编码”,我认为这是一个拉丁文字。CP1251文件读取到R中没有问题。然而,CP1252文件在R中变得乱七八糟。我尝试了foreign、haven和hmisc包在SPSS文件中读取,但都没有成功。我还尝试了包括reencode='utf-8'。当我这样做的时候,西里尔文字都变
Cyrillic文本
。所有文件都在西里尔文中
。当我将大多数代码读入R时,控制台会显示“从CP1251重新编码”。然而,当我读到一些文件时,也在西里尔文中,上面写着“从CP1252重新编码”,我认为这是一个拉丁文字。CP1251
文件读取到R中没有问题。然而,CP1252
文件在R中变得乱七八糟。我尝试了foreign
、haven
和hmisc
包在SPSS文件中读取,但都没有成功。我还尝试了包括reencode='utf-8'
。当我这样做的时候,西里尔文字都变成了NA。无论我是在R还是在RStudio中工作,问题都会出现
x1<- read.spss("cp1251_file.sav", to.data.frame = T) #1251 file reads in fine
x2<- read.spss("cp1252_file.sav", to.data.frame = T) #1252 file becomes gibberish
x2<- read.spss("cp1252_file.sav", to.data.frame = T, reencode='utf-8') #Cyrillic text in CP1252 file becomes NA
x1如果我使用memisc
包,并且我告诉R该文件是CP1251,即使在使用read.spss时它认为它是CP1252,它看起来也可以工作。谢谢
df对我来说,它适用于德国umlaute(üäö),结合了以下选项:options(encoding=“UTF-8”);spssfile此问题/答案也可能有帮助:谢谢。我已经试过了,现在我在尝试转换为数据帧时出错。如果我告诉R该文件是CP1251,即使它认为它是CP1252,spssfile看起来也能工作。谢谢!:'df