Python 使用pandas以.txt格式保存分割数据集
试图将数据集吐出到Python 使用pandas以.txt格式保存分割数据集,python,pandas,Python,Pandas,试图将数据集吐出到训练和测试,然后需要将其保存为.txt格式 这是到目前为止的代码 import pandas as pd from sklearn.model_selection import train_test_split category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8') train, test = train_test_split(category, test_size=0.2) test.to_
训练
和测试
,然后需要将其保存为.txt
格式
这是到目前为止的代码
import pandas as pd
from sklearn.model_selection import train_test_split
category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8')
train, test = train_test_split(category, test_size=0.2)
test.to_csv('checkme.txt')
但是,当我尝试这样做时,会出现以下错误:
回溯(最近一次呼叫最后一次):
文件“splitter.py”,第8行,在
test.to_csv('checkme.tsv'))
文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/core/frame.py”,第1745行,输入到csv
格式化程序。保存()
文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/io/formats/csvs.py”,第171行,保存
self._save()
文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/io/formats/csvs.py”,第286行,保存
self.\u保存块(开始、结束)
文件“/home/abc/micro/micro/local/lib/python2.7/site packages/pandas/io/formats/csvs.py”,第313行,在保存块中
self.cols,self.writer)
文件“pandas/_libs/writers.pyx”,第64行,在pandas._libs.writers.write_csv_行中
UnicodeEncodeError:“ascii”编解码器无法对位置111中的字符u'\u026a'进行编码:序号不在范围内(128)
这里可能有什么问题,如何解决 您需要以unicode格式编写数据帧:
test.to_csv('checkme.txt', sep='\t', encoding='utf-8')
可能还想在
上指定编码到\u csv
吗?@RafaelC,是的,也需要指定编码。你可以在上面添加sep='\t',这样我就可以通过接受它作为答案来结束这个问题了!