Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/haskell/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 熊猫数据帧。使用encoding=';保存时丢失部分文本数据;utf-8';_Python_Pandas_Unicode_Encoding - Fatal编程技术网

Python 熊猫数据帧。使用encoding=';保存时丢失部分文本数据;utf-8';

Python 熊猫数据帧。使用encoding=';保存时丢失部分文本数据;utf-8';,python,pandas,unicode,encoding,Python,Pandas,Unicode,Encoding,我试图将大量单词(俄语,Unicode)放入dataframe列,并将生成的dataframe保存到.csv文件中。我需要保存编码文本,但每当我手动设置encoding='utf-8'时,它会剪切我的一部分数据,只保存前100个单词或其他内容 我正在使用Python 2.7 (列表非常大,所以这里我只写第一个和最后一个元素) 请告知任何建议。使用“latin-1”而不是“utf-8”不幸的是,它给出了UnicodeEncodeError:“latin-1”编解码器无法对位置6-14中的字符进行编

我试图将大量单词(俄语,Unicode)放入dataframe列,并将生成的dataframe保存到.csv文件中。我需要保存编码文本,但每当我手动设置
encoding='utf-8'
时,它会剪切我的一部分数据,只保存前100个单词或其他内容

我正在使用Python 2.7

(列表非常大,所以这里我只写第一个和最后一个元素)


请告知任何建议。

使用“latin-1”而不是“utf-8”

不幸的是,它给出了
UnicodeEncodeError:“latin-1”编解码器无法对位置6-14中的字符进行编码:序号不在范围(256)内。
len(a)是什么?如果以1/2、1/4等为单位进行处理,问题是否仍然存在?len(a)是164个单词(1288个字符)。分块会很好地工作,但我看不到任何方便的方法来分块一个大数据集。我只是想帮助您分类哪些地方会让bug感到不舒服。您能确认问题发生的长度吗?似乎只剩下100个字(990个字符,包括“,”)。所以上面所有的线都被切断了。
a = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u044d\u043d\u0435\u0440\u0433\u0438\u0438']
s = [u'\u0441\u043e\u0432\u043c\u0435\u0449\u0430\u0442\u044c', ... , u'\u043b\u0438\u0447\u043d\u043e\u0439']


d = {'col1': [0, 1], 'col2': [a, s]}
df = pd.DataFrame(data=d)

df.to_csv('test.csv', encoding='utf-8')