Python 如何在测试数据集中使用训练数据集的分数
我最近正在研究神经网络和panda dataframe,我拥有的数据集被分割成几个.csv文件,对于train数据集,我加载它们如下:Python 如何在测试数据集中使用训练数据集的分数,python,pandas,scikit-learn,Python,Pandas,Scikit Learn,我最近正在研究神经网络和panda dataframe,我拥有的数据集被分割成几个.csv文件,对于train数据集,我加载它们如下: df1 = pd.read_csv("/home/path/to/file/data1.csv") df2 = pd.read_csv("/home/path/to/file/data2.csv") df3 = pd.read_csv("/home/path/to/file/data3.csv") df
df1 = pd.read_csv("/home/path/to/file/data1.csv")
df2 = pd.read_csv("/home/path/to/file/data2.csv")
df3 = pd.read_csv("/home/path/to/file/data3.csv")
df4 = pd.read_csv("/home/path/to/file/data4.csv")
df5 = pd.read_csv("/home/path/to/file/data5.csv")
trainDataset = pd.concat([df1, df2, df3, df4, df5])
然后,正如许多文章所建议的,测试数据集应该是火车数据集的20%左右。我的问题是:
testDataset = train_test_split(trainDataset, test_size=0.2)
我非常感谢您在这方面提供的任何提示或帮助。函数
train\u test\u split
将为您提供答案,但我对您在示例中的调用感到有点惊讶
更常见的是有这样的功能,x
是特性(在y=f(x)
中的x
,而f
是你试图通过学习模仿的真正功能),而y
是响应(在y=f(x)
中的y
)
有关更多解释,请参见函数
train\u test\u split
将为您提供答案,但我对您在示例中的调用感到有点惊讶
更常见的是有这样的功能,x
是特性(在y=f(x)
中的x
,而f
是你试图通过学习模仿的真正功能),而y
是响应(在y=f(x)
中的y
)
有关更多说明,请参见无
y
在列车测试\u分割中不需要。OP使用的原因是有效的。问题不在于他使用的方式。train\u test\u split(data,test\u size=0.2,random\u state=42)
addrandom\u state
对于固定随机洗牌,这将使测试数据集随机化,是否也可以随机化train数据集?@mujjiga确实如此,但这样更容易理解,显然假设这是有监督的learning@saadh17它创建了一个专用的测试和培训集。如果您有另一个测试集,您可以使用它进行交叉验证,例如比较不同的学习(algo、超参数等)train\u test\u split
中不需要y
。OP使用的原因是有效的。问题不在于他使用的方式。train\u test\u split(data,test\u size=0.2,random\u state=42)
addrandom\u state
对于固定随机洗牌,这将使测试数据集随机化,是否也可以随机化train数据集?@mujjiga确实如此,但这样更容易理解,显然假设这是有监督的learning@saadh17它创建了一个专用的测试和培训集。如果您有另一个测试集,您可以使用它进行交叉验证,例如比较不同的学习(algo、超参数等)您能告诉我们错误吗您能告诉我们错误吗
from sklearn.model_selection import train_test_split
xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size=0.2)