Python 如何理解分割数据的函数_Python_Scikit Learn_Training Data_K Fold

Python 如何理解分割数据的函数

python scikit-learn

Python 如何理解分割数据的函数,python,scikit-learn,training-data,k-fold,Python,Scikit Learn,Training Data,K Fold,有人能帮我理解这个函数的作用吗我对印刷品一清二楚，但从那以后我就有点不知所措了。从列车数据开始 def stratifiedShuffleSplit_data(X, y): sss = StratifiedShuffleSplit(n_splits=5, test_size=0.5, random_state=0) for train_index, test_index in sss.split(X, y): print("len(TRAIN):", len(t

有人能帮我理解这个函数的作用吗

我对印刷品一清二楚，但从那以后我就有点不知所措了。从

列车数据开始

def stratifiedShuffleSplit_data(X, y):
    sss = StratifiedShuffleSplit(n_splits=5, test_size=0.5, random_state=0)
    for train_index, test_index in sss.split(X, y):
        print("len(TRAIN):", len(train_index), "len(TEST):", len(test_index))
        print("TRAIN:", train_index, "TEST:", test_index)

        train_data = [df.loc[ind] for ind in train_index]
        test_data = [df.loc[ind] for ind in test_index]
        save_datarows(train_data, datafile+".train")
        save_datarows(test_data, datafile+".test")

假设您使用的是Panda软件包

 pd.DataFrame.loc

是一种基于位置的索引器-这是一个过于简化的版本。我将发布一些资源，可以帮助您更好地理解它

train_data = [df.loc[ind] for ind in train_index]

在这里，您基本上迭代列表ind并存储相应的值train\u数据对于测试数据的情况也是如此

我假设save_datarows是一个自定义函数，用于将train_数据存储到扩展名为.train的文件中

希望这有帮助

这是一个非常好的参考资料，可供进一步澄清：

所以，您的主要疑问是“列车数据=[df.loc[ind]代表列车索引中的ind]”这一行，对吗？是的，还有最后两行