Python 如何修复编码错误的字符串?
我在SQL Server中有一个表,其中填充了一些编码错误的字符。当我有了来源,我发现来源也是有问题的。我没有正确编码的数据(即这些数据的正确表示)。我希望编码系统之间有一对一的关系,这样我就可以解码字符并找到正确的编码Python 如何修复编码错误的字符串?,python,sql-server,r,encoding,character-encoding,Python,Sql Server,R,Encoding,Character Encoding,我在SQL Server中有一个表,其中填充了一些编码错误的字符。当我有了来源,我发现来源也是有问题的。我没有正确编码的数据(即这些数据的正确表示)。我希望编码系统之间有一对一的关系,这样我就可以解码字符并找到正确的编码 universidades<- c("Autã³Noma De Ciudad Juã¡Rez", "Plutarco ElÃas Calle", "Tecnolã³Gico", "Gálvez Quiñones") universidades
universidades<- c("Autã³Noma De Ciudad Juã¡Rez",
"Plutarco ElÃas Calle", "Tecnolã³Gico", "Gálvez Quiñones")
universidades
[1] "Autã³Noma De Ciudad Juã¡Rez" "Plutarco ElÃas Calle"
[3] "Tecnolã³Gico" "Gálvez Quiñones"
iconv(universidades, to="latin-9")
[1] "Aut\xe3\xb3Noma De Ciudad Ju\xe3\xa1Rez"
[2] "Plutarco Elías Calle"
[3] "Tecnol\xe3\xb3Gico"
[4] "Gálvez Quiñones"
到目前为止,我能够部分编码,但显然是错误的,例如,见下文
Auta3Noma De Ciudad JuãRez
->Auta3Noma De Ciudad Jua!Rez
Plutarco ElÃas Calle
->Plutarco ElA as Calle
Tecnolã³Gico
->Tecnola3Gico
我是在R里做的
iconv('Gálvez Quiñones', to='ASCII//TRANSLIT')
[1] "GA!lvez QuiA?ones"
如你所见,我还没有成功。您认为在R、Python或SQL Server中正确编码这些编码错误的字符是可行的吗?嘿,这是一个局部解决方案,即它不能很好地处理/修复某些字符(例如上标-3、反惊叹号、带~)。但它与另外两个很好地配合。我使用了
iconv
并将更改为编码
universidades<- c("Autã³Noma De Ciudad Juã¡Rez",
"Plutarco ElÃas Calle", "Tecnolã³Gico", "Gálvez Quiñones")
universidades
[1] "Autã³Noma De Ciudad Juã¡Rez" "Plutarco ElÃas Calle"
[3] "Tecnolã³Gico" "Gálvez Quiñones"
iconv(universidades, to="latin-9")
[1] "Aut\xe3\xb3Noma De Ciudad Ju\xe3\xa1Rez"
[2] "Plutarco Elías Calle"
[3] "Tecnol\xe3\xb3Gico"
[4] "Gálvez Quiñones"
大学