Python 熊猫读取\u csv编码奇怪的字符
我尝试使用pandas以文本文件格式读取数据集。但是,有些字符编码不正确。我得到了???撇号 我应该如何正确编码我的文件?我试过了Python 熊猫读取\u csv编码奇怪的字符,python,csv,encoding,utf-8,pandas,Python,Csv,Encoding,Utf 8,Pandas,我尝试使用pandas以文本文件格式读取数据集。但是,有些字符编码不正确。我得到了???撇号 我应该如何正确编码我的文件?我试过了 encoding=“utf8”但是我得到了UnicodeDecodeError:“utf8”编解码器无法解码2044位置的字节0xc3:数据意外结束 encoding=“latin1”但这给了我很多 encoding=“ISO-8859-1”或“ISO-8859-2”但这也给了我类似于没有编码的感觉 当我在sublime中打开我的数据时,我得到了这个字符€™.
但是我得到了encoding=“utf8”
UnicodeDecodeError:“utf8”编解码器无法解码2044位置的字节0xc3:数据意外结束
但这给了我很多encoding=“latin1”
但这也给了我类似于没有编码的感觉encoding=“ISO-8859-1”或“ISO-8859-2”
根据需要,您应该尝试
encoding=“ISO-8859-2”
:
我猜您的输入编码为ISO-8859-2,其中包含Ăas0xC3
注意:Sublime可能也无法正确推断编码,因此您必须对它的输出进行仔细分析,最好与您的供应商(无论您从何处获得文件)核实实际编码是什么…您需要知道文件实际采用的编码。你从哪里得到的文件?你试过ISO-8859-2吗?@AndyHayden是的,我did@user3362840请尝试chardet:)
$ pip install chardet
>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}