Python 熊猫读取\u csv编码奇怪的字符

Python 熊猫读取\u csv编码奇怪的字符,python,csv,encoding,utf-8,pandas,Python,Csv,Encoding,Utf 8,Pandas,我尝试使用pandas以文本文件格式读取数据集。但是,有些字符编码不正确。我得到了???撇号 我应该如何正确编码我的文件?我试过了 encoding=“utf8”但是我得到了UnicodeDecodeError:“utf8”编解码器无法解码2044位置的字节0xc3:数据意外结束 encoding=“latin1”但这给了我很多 encoding=“ISO-8859-1”或“ISO-8859-2”但这也给了我类似于没有编码的感觉 当我在sublime中打开我的数据时,我得到了这个字符€™.

我尝试使用pandas以文本文件格式读取数据集。但是,有些字符编码不正确。我得到了???撇号

我应该如何正确编码我的文件?我试过了

  • encoding=“utf8”
    但是我得到了
    UnicodeDecodeError:“utf8”编解码器无法解码2044位置的字节0xc3:数据意外结束

  • encoding=“latin1”
    但这给了我很多

  • encoding=“ISO-8859-1”或“ISO-8859-2”
    但这也给了我类似于没有编码的感觉

当我在sublime中打开我的数据时,我得到了这个字符€™.

更新:但当我使用loc访问条目时,我得到了类似于\u0102\u02d8\xe2\x82\u0179\xc2\u015\u0102\u02d8\xe2\x82\u0179\xe2\x84\u02d8的内容,您可以使用:

基本用法还建议您如何使用它来推断大文件的编码,例如太大而无法读入内存的文件-它将读取文件,直到对编码有足够的信心为止


根据需要,您应该尝试
encoding=“ISO-8859-2”

我猜您的输入编码为ISO-8859-2,其中包含Ăas
0xC3



注意:Sublime可能也无法正确推断编码,因此您必须对它的输出进行仔细分析,最好与您的供应商(无论您从何处获得文件)核实实际编码是什么…

您需要知道文件实际采用的编码。你从哪里得到的文件?你试过ISO-8859-2吗?@AndyHayden是的,我did@user3362840请尝试chardet:)
$ pip install chardet

>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}