Python 将列车和测试数据保存在文件中_Python_Python 2.7_Numpy_Scikit Learn

Python 将列车和测试数据保存在文件中

python python-2.7 numpy scikit-learn

Python 将列车和测试数据保存在文件中,python,python-2.7,numpy,scikit-learn,Python,Python 2.7,Numpy,Scikit Learn,我使用以下代码将数据集拆分为一列并将测试数据保存到一个文件中 import numpy as np from sklearn.cross_validation import train_test_split a = (np.genfromtxt(open('dataset.csv','r'), delimiter=',', dtype='int')[1:]) a_train, a_test = train_test_split(a, test_size=0.33, random_state=0

我使用以下代码将数据集拆分为一列并将测试数据保存到一个文件中

import numpy as np
from sklearn.cross_validation import train_test_split

a = (np.genfromtxt(open('dataset.csv','r'), delimiter=',', dtype='int')[1:])
a_train, a_test = train_test_split(a, test_size=0.33, random_state=0)

c1 = open('trainfile.csv', 'w')
arr1 = str(a_train)
c1.write(arr1)
c1.close

c2 = open('testfile.csv', 'w')
arr2 = str(a_test)
c2.write(arr2)
c2.close

但是，我在文件中得到以下输出：

trainfile.csv:
[[ 675847       0       0 ...,       0       0       3]
 [  74937       0       0 ...,       0       0       3]
 [  65212       0       0 ...,       0       0       3]
 ..., 
 [  18251       0       0 ...,       0       0       1]
 [1131828       0       0 ...,       0       0       1]
 [  14529       0       0 ...,       0       0       1]]

这就是trainfile的全部内容。对于testfile.csv的输出，我也面临同样的问题。我想要的是整个训练和测试数据存储在文件中，而不是表示额外数据的时段。建议？

这是因为您正在对numpy数组调用string方法

str

。改用numpy函数。看起来像

with open('testfile.csv', 'w') as FOUT:
    np.savetxt(FOUT, a_test)

请注意，该格式不一定能被CSV读取器读取。如果这是您的意图，您可以使用。

这是因为您正在对numpy数组调用string方法

str

。改用numpy函数。看起来像

with open('testfile.csv', 'w') as FOUT:
    np.savetxt(FOUT, a_test)

请注意，该格式不一定能被CSV读取器读取。如果这是您的意图，您可以使用。

您在那里拼错了savetxt，但这确实起到了作用。谢谢！！固定的。我在现实生活中也是这样做的，我永远记不住正确的关键词！使用“

分隔符=”，“

”，您的csv应该可以被任何csv解析器解析。您在那里拼写了savetxt，但这就成功了。谢谢！！固定的。我在现实生活中也是这样做的，我永远记不住正确的关键词！使用

分隔符='，'

，您的csv应该可以被任何csv解析器解析。