Python 熊猫数据帧。使用encoding='；保存时丢失部分文本数据；utf-8'；_Python_Pandas_Unicode_Encoding

Python 熊猫数据帧。使用encoding='；保存时丢失部分文本数据；utf-8'；

python pandas unicode encoding

Python 熊猫数据帧。使用encoding='；保存时丢失部分文本数据；utf-8'；,python,pandas,unicode,encoding,Python,Pandas,Unicode,Encoding,我试图将大量单词（俄语，Unicode）放入dataframe列，并将生成的dataframe保存到.csv文件中。我需要保存编码文本，但每当我手动设置encoding='utf-8'时，它会剪切我的一部分数据，只保存前100个单词或其他内容我正在使用Python 2.7 （列表非常大，所以这里我只写第一个和最后一个元素）请告知任何建议。使用“latin-1”而不是“utf-8”不幸的是，它给出了UnicodeEncodeError:“latin-1”编解码器无法对位置6-14中的字符进行编

我试图将大量单词（俄语，Unicode）放入dataframe列，并将生成的dataframe保存到.csv文件中。我需要保存编码文本，但每当我手动设置

encoding='utf-8'

时，它会剪切我的一部分数据，只保存前100个单词或其他内容

我正在使用Python 2.7

（列表非常大，所以这里我只写第一个和最后一个元素）

请告知任何建议。

使用“latin-1”而不是“utf-8”

不幸的是，它给出了

UnicodeEncodeError:“latin-1”编解码器无法对位置6-14中的字符进行编码：序号不在范围（256）内。

len（a）是什么？如果以1/2、1/4等为单位进行处理，问题是否仍然存在？len（a）是164个单词（1288个字符）。分块会很好地工作，但我看不到任何方便的方法来分块一个大数据集。我只是想帮助您分类哪些地方会让bug感到不舒服。您能确认问题发生的长度吗？似乎只剩下100个字（990个字符，包括“，”）。所以上面所有的线都被切断了。

a = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u044d\u043d\u0435\u0440\u0433\u0438\u0438']
s = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u043b\u0438\u0447\u043d\u043e\u0439']


d = {'col1': [0, 1], 'col2': [a, s]}
df = pd.DataFrame(data=d)

df.to_csv('test.csv', encoding='utf-8')