Python 如何在测试数据集中使用训练数据集的分数_Python_Pandas_Scikit Learn

Python 如何在测试数据集中使用训练数据集的分数

python pandas scikit-learn

Python 如何在测试数据集中使用训练数据集的分数,python,pandas,scikit-learn,Python,Pandas,Scikit Learn,我最近正在研究神经网络和panda dataframe，我拥有的数据集被分割成几个.csv文件，对于train数据集，我加载它们如下： df1 = pd.read_csv("/home/path/to/file/data1.csv") df2 = pd.read_csv("/home/path/to/file/data2.csv") df3 = pd.read_csv("/home/path/to/file/data3.csv") df

我最近正在研究神经网络和panda dataframe，我拥有的数据集被分割成几个.csv文件，对于train数据集，我加载它们如下：

df1 = pd.read_csv("/home/path/to/file/data1.csv")
df2 = pd.read_csv("/home/path/to/file/data2.csv")
df3 = pd.read_csv("/home/path/to/file/data3.csv")
df4 = pd.read_csv("/home/path/to/file/data4.csv")
df5 = pd.read_csv("/home/path/to/file/data5.csv")

trainDataset = pd.concat([df1, df2, df3, df4, df5])

然后，正如许多文章所建议的，测试数据集应该是火车数据集的20%左右。我的问题是：

如何将测试数据集定义为列车数据集的20%

当我同时加载训练数据集和测试数据集时，对数据进行随机化的最佳方法是什么

我尝试了这一点，并编写了以下代码，但没有成功：

testDataset = train_test_split(trainDataset, test_size=0.2)

我非常感谢您在这方面提供的任何提示或帮助。

函数

train\u test\u split

将为您提供答案，但我对您在示例中的调用感到有点惊讶

更常见的是有这样的功能，

是特性（在

y=f（x）

中的

，而

是你试图通过学习模仿的真正功能），而

是响应（在

y=f（x）

中的

）

有关更多解释，请参见函数

train\u test\u split

将为您提供答案，但我对您在示例中的调用感到有点惊讶

更常见的是有这样的功能，

是特性（在

y=f（x）

中的

，而

是你试图通过学习模仿的真正功能），而

是响应（在

y=f（x）

中的

）

有关更多说明，请参见无

在

列车测试\u分割中不需要。OP使用的原因是有效的。问题不在于他使用的方式。train\u test\u split（data，test\u size=0.2，random\u state=42）
addrandom\u state
对于固定随机洗牌，这将使测试数据集随机化，是否也可以随机化train数据集？@mujjiga确实如此，但这样更容易理解，显然假设这是有监督的learning@saadh17它创建了一个专用的测试和培训集。如果您有另一个测试集，您可以使用它进行交叉验证，例如比较不同的学习（algo、超参数等）train\u test\u split
中不需要y
。OP使用的原因是有效的。问题不在于他使用的方式。train\u test\u split（data，test\u size=0.2，random\u state=42）
addrandom\u state对于固定随机洗牌，这将使测试数据集随机化，是否也可以随机化train数据集？@mujjiga确实如此，但这样更容易理解，显然假设这是有监督的learning@saadh17它创建了一个专用的测试和培训集。如果您有另一个测试集，您可以使用它进行交叉验证，例如比较不同的学习（algo、超参数等）您能告诉我们错误吗您能告诉我们错误吗
from sklearn.model_selection import train_test_split
xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size=0.2)