Python 特殊字符解码_Python_Csv_Pandas_Dataframe_Character Encoding

Python 特殊字符解码

python csv pandas dataframe character-encoding

Python 特殊字符解码,python,csv,pandas,dataframe,character-encoding,Python,Csv,Pandas,Dataframe,Character Encoding,我不能用print或histogram打印特殊字符 def class_data(): df = pd.read_csv('words.csv', sep=',') df = df.astype(str) df = df.replace(['é', 'è', 'È', 'É'], 'e', regex=True) df = df.replace(['à', 'â', 'À'], 'a', regex=True) df.manual_raw_value =

我不能用

print

或

histogram

打印特殊字符

def class_data():
    df = pd.read_csv('words.csv', sep=',')
    df = df.astype(str)
    df = df.replace(['é', 'è', 'È', 'É'], 'e', regex=True)
    df = df.replace(['à', 'â', 'À'], 'a', regex=True)
    df.manual_raw_value = df.manual_raw_value.str.lower()

classes=set(df.manual_raw_value.apply(list).sum())
print("number of classes is ", len(classes))
print("classes are " ,classes)

# histogram
pd.Series(list(df.manual_raw_value.str.cat())).value_counts().plot(kind="bar")

我明白了

('number of classes is ', 73)

课程包括：

('classes are ', set(['\x82', '\x87', '*', '\xac', '\xaf', '\xae', '>', '!', ' ', '"', '%', "'", '\xb0', ')', '(', '+', '\xaa', '-', ',', '/', '.', '1', '0', '3', '2', '5', '4', '7', '6', '9', '8', '\xbb', ':', '=', '?', '\xb4', '@', '\xc3', '\xc2', '\xa7', '\xa1', '\xb9', '\xe2', '_', 'a', '&', 'c', 'b', 'e', 'd', 'g', 'f', 'i', 'h', 'k', 'j', 'm', 'l', 'o', 'n', 'q', 'p', 's', 'r', 'u', 't', 'w', 'v', 'y', 'x', 'z', '\xab', '\x94']))

这是柱状图为什么我会得到

？

当它是直方图中的

特殊字符时？
与
[x.decode（“utf-8”）在类中对x进行解码]
解决了问题吗？@Ding，它返回这个UnicodeDecodeError:“utf8”编解码器无法解码位置0处的字节0x82:invalid start by teany ideas@Dingwords.csv文件的编码是什么？你可以用words.csv文件检查它。编码是utf-8
print("classes are " ,classes) l get for `special chars`   
 '\xab', '\x94'  , how to display the appropriate char ? is it related to encoding