Python 我有一些关于h2o分布随机森林模型的问题

Python 我有一些关于h2o分布随机森林模型的问题,python,machine-learning,random-forest,h2o,Python,Machine Learning,Random Forest,H2o,根据DRF部分FAQ中的H2O文档,关于“算法如何处理培训期间的缺失值?”FAQ: 注意:与GLM不同,DRF中的数值处理方式与分类值相同。缺少的值不会像GLM中默认的那样用平均值进行插补 我使用DRF算法来解决回归问题,但当我看到这张便条时,我感到很奇怪。若我把所有的数值转换成分类值来解决回归问题,我认为这是胡说八道 这是我的问题 我是否需要将所有数值转换为分类值才能使用DRF算法? 或 使用DRF算法不需要将所有数值转换为分类值吗? 感谢您阅读我的问题。否,H2O不要求您将所有数值转

根据DRF部分FAQ中的H2O文档,关于“算法如何处理培训期间的缺失值?”FAQ:

注意:与GLM不同,DRF中的数值处理方式与分类值相同。缺少的值不会像GLM中默认的那样用平均值进行插补

我使用DRF算法来解决回归问题,但当我看到这张便条时,我感到很奇怪。若我把所有的数值转换成分类值来解决回归问题,我认为这是胡说八道

这是我的问题

  • 我是否需要将所有数值转换为分类值才能使用DRF算法?

  • 使用DRF算法不需要将所有数值转换为分类值吗?

感谢您阅读我的问题。

否,H2O不要求您将所有数值转换为分类值

如果您想查看训练有素的H2O DRF模型如何处理不同的输入列,请按照以下说明查看MOJO

请注意,在下图中,数字列通过“小于”值比较进行处理,分类列通过将一些级别发送到左侧子级和一些级别发送到右侧子级进行处理


如果这两种类型的值处理方式相同,则无需以任何方式转换值。如果您觉得这不适合您的问题,您可能需要另一个分类器。您没有在文档中给出完整的引用。常见问题解答中的部分是“培训期间缺少值”,完整注释为“注意:与GLM不同,在DRF中,数字值的处理方式与分类值相同。缺少值不使用平均值进行插补,GLM中默认情况下是这样做的。”。这是关于DRF如何处理丢失的值,而不是一般的值。谢谢你评论我的问题。根据您的评论,我不需要将数值转换为分类值。对吗?