Python 拉丁字符É;在曲É;BEC显示为QUÉ;读取csv函数调用后的BEC
我需要将psv文件读取到dataframe。当我在notepad++中打开psv文件时,我看到值为QUÉBEC。但当我在excel中以分隔符|打开时,值显示为QU├ëBEC。在使用read_csv函数后的数据帧中-当使用编码=cp1252、编码=latin_1、iso8859-1、iso8859_15进行尝试时,该值显示为QUÉBEC。最终,我希望数据框架具有魁北克价值 我尝试过使用指定的编码标准,但似乎没有任何效果。 具体来说,所有的尝试都与西欧和拉丁美洲有关Python 拉丁字符É;在曲É;BEC显示为QUÉ;读取csv函数调用后的BEC,python,pandas,Python,Pandas,我需要将psv文件读取到dataframe。当我在notepad++中打开psv文件时,我看到值为QUÉBEC。但当我在excel中以分隔符|打开时,值显示为QU├ëBEC。在使用read_csv函数后的数据帧中-当使用编码=cp1252、编码=latin_1、iso8859-1、iso8859_15进行尝试时,该值显示为QUÉBEC。最终,我希望数据框架具有魁北克价值 我尝试过使用指定的编码标准,但似乎没有任何效果。 具体来说,所有的尝试都与西欧和拉丁美洲有关 def load_psv_i
def load_psv_into_df(psv_filename):
# This function loads the PSV into the data frame.
# Input: PSV File Name
# Output: Data frame
result_df = pd.read_csv (psv_filename, sep='|', encoding='cp1252',
dtype=str, low_memory=False, keep_default_na=False)
return result_df
在使用UTF-8标准时,我得到以下错误消息。以utf开头的任何编码标准都是相同的。请建议。
UnicodeDecodeError:“utf-8”编解码器无法对位置12处的字节0xed进行解码:无效的延续字节两个最可能的编码选项是
utf-8
和utf-16le
。但是,正如Igaud所说,notepad++肯定会告诉您编码。notepad++显示的编码是什么?它沿着底部显示。它显示utf-8。但是当我使用utf-8时,我得到UnicodeDecodeError:“utf-8”编解码器无法解码位置12处的字节0xed:无效的连续字节错误。请告知。你试过utf-16le吗?记事本++说你的文件是什么编码?