如何在Python中确定H2O帧的大小(以字节为单位)?

如何在Python中确定H2O帧的大小(以字节为单位)?,python,h2o,Python,H2o,我正在将Spark数据帧加载到H2O中(使用Python)以构建机器学习模型。有人向我建议,我应该分配一个H2O集群,RAM为我将要训练的帧的2-4倍,这样分析就可以轻松地放在内存中。但我不知道如何精确估计H2O框架的大小 所以,假设我已经在Python中加载了一个H2O帧,那么我实际上如何确定它的大小(以字节为单位)?10-20%的近似值是可以的。这指的是磁盘上文件大小的2-4倍,因此不要查看Python中的内存,而是查看原始文件大小。此外,2-4x建议因算法而异(GLM&DL比基于树的模型需

我正在将Spark数据帧加载到H2O中(使用Python)以构建机器学习模型。有人向我建议,我应该分配一个H2O集群,RAM为我将要训练的帧的2-4倍,这样分析就可以轻松地放在内存中。但我不知道如何精确估计H2O框架的大小


所以,假设我已经在Python中加载了一个H2O帧,那么我实际上如何确定它的大小(以字节为单位)?10-20%的近似值是可以的。

这指的是磁盘上文件大小的2-4倍,因此不要查看Python中的内存,而是查看原始文件大小。此外,2-4x建议因算法而异(GLM&DL比基于树的模型需要更少的内存)

这是指磁盘上文件大小的2-4倍,因此,不要查看Python中的内存,而是查看原始文件大小。此外,2-4x建议因算法而异(GLM&DL比基于树的模型需要更少的内存)

这将显示H2O键值存储中底层表示的摘要,包括完整字节大小:

frame.describe(chunk_summary=True)

这将显示H2O键值存储中底层表示的摘要,包括完整字节大小:

frame.describe(chunk_summary=True)

H2O帧是从应用了各种转换的Spark数据帧转换而来的(其本身最初是从配置单元查询生成的)。据我所知,它并不直接对应于磁盘上的文件。H2O帧是通过应用各种转换(其本身最初由配置单元查询生成)从Spark数据帧转换生成的。据我所知,它并不直接对应于磁盘上的文件。