Python 如何理解分割数据的函数
有人能帮我理解这个函数的作用吗 我对印刷品一清二楚,但从那以后我就有点不知所措了。从Python 如何理解分割数据的函数,python,scikit-learn,training-data,k-fold,Python,Scikit Learn,Training Data,K Fold,有人能帮我理解这个函数的作用吗 我对印刷品一清二楚,但从那以后我就有点不知所措了。从列车数据开始 def stratifiedShuffleSplit_data(X, y): sss = StratifiedShuffleSplit(n_splits=5, test_size=0.5, random_state=0) for train_index, test_index in sss.split(X, y): print("len(TRAIN):", len(t
列车数据开始
def stratifiedShuffleSplit_data(X, y):
sss = StratifiedShuffleSplit(n_splits=5, test_size=0.5, random_state=0)
for train_index, test_index in sss.split(X, y):
print("len(TRAIN):", len(train_index), "len(TEST):", len(test_index))
print("TRAIN:", train_index, "TEST:", test_index)
train_data = [df.loc[ind] for ind in train_index]
test_data = [df.loc[ind] for ind in test_index]
save_datarows(train_data, datafile+".train")
save_datarows(test_data, datafile+".test")
假设您使用的是Panda软件包
pd.DataFrame.loc
是一种基于位置的索引器-这是一个过于简化的版本。我将发布一些资源,可以帮助您更好地理解它
train_data = [df.loc[ind] for ind in train_index]
在这里,您基本上迭代列表ind并存储相应的值train\u数据
对于测试数据的情况也是如此
我假设save_datarows是一个自定义函数,用于将train_数据存储到扩展名为.train的文件中
希望这有帮助
这是一个非常好的参考资料,可供进一步澄清:
所以,您的主要疑问是“列车数据=[df.loc[ind]代表列车索引中的ind]”这一行,对吗?是的,还有最后两行