Python 使用pandas以.txt格式保存分割数据集_Python_Pandas

Python 使用pandas以.txt格式保存分割数据集

python pandas

Python 使用pandas以.txt格式保存分割数据集,python,pandas,Python,Pandas,试图将数据集吐出到训练和测试，然后需要将其保存为.txt格式这是到目前为止的代码 import pandas as pd from sklearn.model_selection import train_test_split category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8') train, test = train_test_split(category, test_size=0.2) test.to_

试图将数据集吐出到

训练

和

测试

，然后需要将其保存为

.txt

格式

这是到目前为止的代码

import pandas as pd
from sklearn.model_selection import train_test_split

category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8')

train, test = train_test_split(category, test_size=0.2)

test.to_csv('checkme.txt')

但是，当我尝试这样做时，会出现以下错误：

回溯（最近一次呼叫最后一次）：文件“splitter.py”，第8行，在 test.to_csv（'checkme.tsv'））文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/core/frame.py”，第1745行，输入到csv 格式化程序。保存（）文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/io/formats/csvs.py”，第171行，保存 self._save（）文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/io/formats/csvs.py”，第286行，保存 self.\u保存块（开始、结束）文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/io/formats/csvs.py”，第313行，在保存块中 self.cols，self.writer）文件“pandas/_libs/writers.pyx”，第64行，在pandas._libs.writers.write_csv_行中 UnicodeEncodeError:“ascii”编解码器无法对位置111中的字符u'\u026a'进行编码：序号不在范围内（128）

这里可能有什么问题，如何解决

您需要以unicode格式编写数据帧：


test.to_csv('checkme.txt', sep='\t', encoding='utf-8')

可能还想在

上指定编码到\u csv

吗？@RafaelC，是的，也需要指定编码。你可以在上面添加sep='\t'，这样我就可以通过接受它作为答案来结束这个问题了！