Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/345.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何理解分割数据的函数_Python_Scikit Learn_Training Data_K Fold - Fatal编程技术网

Python 如何理解分割数据的函数

Python 如何理解分割数据的函数,python,scikit-learn,training-data,k-fold,Python,Scikit Learn,Training Data,K Fold,有人能帮我理解这个函数的作用吗 我对印刷品一清二楚,但从那以后我就有点不知所措了。从列车数据开始 def stratifiedShuffleSplit_data(X, y): sss = StratifiedShuffleSplit(n_splits=5, test_size=0.5, random_state=0) for train_index, test_index in sss.split(X, y): print("len(TRAIN):", len(t

有人能帮我理解这个函数的作用吗

我对印刷品一清二楚,但从那以后我就有点不知所措了。从
列车数据开始

def stratifiedShuffleSplit_data(X, y):
    sss = StratifiedShuffleSplit(n_splits=5, test_size=0.5, random_state=0)
    for train_index, test_index in sss.split(X, y):
        print("len(TRAIN):", len(train_index), "len(TEST):", len(test_index))
        print("TRAIN:", train_index, "TEST:", test_index)

        train_data = [df.loc[ind] for ind in train_index]
        test_data = [df.loc[ind] for ind in test_index]
        save_datarows(train_data, datafile+".train")
        save_datarows(test_data, datafile+".test")

假设您使用的是Panda软件包

 pd.DataFrame.loc 
是一种基于位置的索引器-这是一个过于简化的版本。我将发布一些资源,可以帮助您更好地理解它

train_data = [df.loc[ind] for ind in train_index]
在这里,您基本上迭代列表ind并存储相应的值train\u数据 对于测试数据的情况也是如此

我假设save_datarows是一个自定义函数,用于将train_数据存储到扩展名为.train的文件中

希望这有帮助

这是一个非常好的参考资料,可供进一步澄清:


所以,您的主要疑问是“列车数据=[df.loc[ind]代表列车索引中的ind]”这一行,对吗?是的,还有最后两行