Python 使用列进行交叉验证

Python 使用列进行交叉验证,python,machine-learning,h2o,Python,Machine Learning,H2o,我有一个数据集,有超过10万行和大约1千列,包括一个二元分类的目标列预测问题。我在python中使用H2OGBM(最新的3.30xx)进行5次交叉验证和80-20次列车测试分割。我注意到H2O会自动分层,这很好。我的问题是,我有一个产品的整个数据集,其中有一些子产品作为一个单独的列或组。每个子产品都有5k到10k行的大小,因此我认为最好在每个子产品上检查单独的型号。我正在寻找是否可以指定该子产品组,以便在H2O模型培训中进行交叉验证。目前,我在进行列车测试拆分时正在对这些子产品进行循环,因为根据

我有一个数据集,有超过10万行和大约1千列,包括一个
二元分类的目标列
预测问题。我在
python
中使用
H2O
GBM(最新的3.30xx)进行5次交叉验证和80-20次列车测试分割。我注意到H2O会自动分层,这很好。我的问题是,我有一个产品的整个数据集,其中有一些子产品作为一个单独的列或组。每个子产品都有5k到10k行的大小,因此我认为最好在每个子产品上检查单独的型号。我正在寻找是否可以指定该子产品组,以便在H2O模型培训中进行交叉验证。目前,我在进行列车测试拆分时正在对这些子产品进行循环,因为根据我迄今为止阅读的文档,我不清楚如何进行拆分。我是否可以在H2O中使用任何选项直接将此子产品列用于交叉验证?这样,我就可以控制更少的脚本中的所有模型输出。

我希望问题是清楚的。如果没有,请告诉我。谢谢。

折叠列
选项有效,文档中有一些简单的示例: