Python 如何在测试数据集中使用训练数据集的分数

Python 如何在测试数据集中使用训练数据集的分数,python,pandas,scikit-learn,Python,Pandas,Scikit Learn,我最近正在研究神经网络和panda dataframe,我拥有的数据集被分割成几个.csv文件,对于train数据集,我加载它们如下: df1 = pd.read_csv("/home/path/to/file/data1.csv") df2 = pd.read_csv("/home/path/to/file/data2.csv") df3 = pd.read_csv("/home/path/to/file/data3.csv") df

我最近正在研究神经网络和panda dataframe,我拥有的数据集被分割成几个.csv文件,对于train数据集,我加载它们如下:

df1 = pd.read_csv("/home/path/to/file/data1.csv")
df2 = pd.read_csv("/home/path/to/file/data2.csv")
df3 = pd.read_csv("/home/path/to/file/data3.csv")
df4 = pd.read_csv("/home/path/to/file/data4.csv")
df5 = pd.read_csv("/home/path/to/file/data5.csv")

trainDataset = pd.concat([df1, df2, df3, df4, df5])
然后,正如许多文章所建议的,测试数据集应该是火车数据集的20%左右。我的问题是:

  • 如何将测试数据集定义为列车数据集的20%
  • 当我同时加载训练数据集和测试数据集时,对数据进行随机化的最佳方法是什么
  • 我尝试了这一点,并编写了以下代码,但没有成功:

    testDataset = train_test_split(trainDataset, test_size=0.2)
    

    我非常感谢您在这方面提供的任何提示或帮助。

    函数
    train\u test\u split
    将为您提供答案,但我对您在示例中的调用感到有点惊讶

    更常见的是有这样的功能,
    x
    是特性(在
    y=f(x)
    中的
    x
    ,而
    f
    是你试图通过学习模仿的真正功能),而
    y
    是响应(在
    y=f(x)
    中的
    y


    有关更多解释,请参见函数
    train\u test\u split
    将为您提供答案,但我对您在示例中的调用感到有点惊讶

    更常见的是有这样的功能,
    x
    是特性(在
    y=f(x)
    中的
    x
    ,而
    f
    是你试图通过学习模仿的真正功能),而
    y
    是响应(在
    y=f(x)
    中的
    y


    有关更多说明,请参见无
    y
    列车测试\u分割中不需要
    。OP使用的原因是有效的。问题不在于他使用的方式。
    train\u test\u split(data,test\u size=0.2,random\u state=42)
    add
    random\u state
    对于固定随机洗牌,这将使测试数据集随机化,是否也可以随机化train数据集?@mujjiga确实如此,但这样更容易理解,显然假设这是有监督的learning@saadh17它创建了一个专用的测试和培训集。如果您有另一个测试集,您可以使用它进行交叉验证,例如比较不同的学习(algo、超参数等)
    train\u test\u split
    中不需要
    y
    。OP使用的原因是有效的。问题不在于他使用的方式。
    train\u test\u split(data,test\u size=0.2,random\u state=42)
    add
    random\u state
    对于固定随机洗牌,这将使测试数据集随机化,是否也可以随机化train数据集?@mujjiga确实如此,但这样更容易理解,显然假设这是有监督的learning@saadh17它创建了一个专用的测试和培训集。如果您有另一个测试集,您可以使用它进行交叉验证,例如比较不同的学习(algo、超参数等)您能告诉我们错误吗您能告诉我们错误吗
    from sklearn.model_selection import train_test_split
    xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size=0.2)