Python 熊猫读取\u csv编码奇怪的字符_Python_Csv_Encoding_Utf 8_Pandas

Python 熊猫读取\u csv编码奇怪的字符

python csv encoding utf-8 pandas

Python 熊猫读取\u csv编码奇怪的字符,python,csv,encoding,utf-8,pandas,Python,Csv,Encoding,Utf 8,Pandas,我尝试使用pandas以文本文件格式读取数据集。但是，有些字符编码不正确。我得到了？？？撇号我应该如何正确编码我的文件？我试过了 encoding=“utf8”但是我得到了UnicodeDecodeError:“utf8”编解码器无法解码2044位置的字节0xc3：数据意外结束 encoding=“latin1”但这给了我很多 encoding=“ISO-8859-1”或“ISO-8859-2”但这也给了我类似于没有编码的感觉当我在sublime中打开我的数据时，我得到了这个字符€™.

我尝试使用pandas以文本文件格式读取数据集。但是，有些字符编码不正确。我得到了？？？撇号

我应该如何正确编码我的文件？我试过了

encoding=“utf8”

但是我得到了

UnicodeDecodeError:“utf8”编解码器无法解码2044位置的字节0xc3：数据意外结束

```
encoding=“latin1”
```
但这给了我很多
```
encoding=“ISO-8859-1”或“ISO-8859-2”
```
但这也给了我类似于没有编码的感觉

当我在sublime中打开我的数据时，我得到了这个字符€™.

更新：但当我使用loc访问条目时，我得到了类似于\u0102\u02d8\xe2\x82\u0179\xc2\u015\u0102\u02d8\xe2\x82\u0179\xe2\x84\u02d8的内容，您可以使用：

基本用法还建议您如何使用它来推断大文件的编码，例如太大而无法读入内存的文件-它将读取文件，直到对编码有足够的信心为止

根据需要，您应该尝试

encoding=“ISO-8859-2”

：

我猜您的输入编码为ISO-8859-2，其中包含Ăas

0xC3

注意：Sublime可能也无法正确推断编码，因此您必须对它的输出进行仔细分析，最好与您的供应商（无论您从何处获得文件）核实实际编码是什么…

您需要知道文件实际采用的编码。你从哪里得到的文件？你试过ISO-8859-2吗？@AndyHayden是的，我did@user3362840请尝试chardet:）

$ pip install chardet

>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}