Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sockets/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scikit learn scikit学习树外分类悬挂_Scikit Learn - Fatal编程技术网

Scikit learn scikit学习树外分类悬挂

Scikit learn scikit学习树外分类悬挂,scikit-learn,Scikit Learn,我正在一些相当大的培训数据集上运行scikit learn,数据集约160000000行,具有约500个功能。该平台是Ubuntu服务器14.04,硬件有100gb的ram和20个CPU核心 测试数据集大约是行数的一半 我设置n_jobs=10,am forest_size=3*number_of_特征,大约1700棵树 如果我将功能的数量减少到350个左右,它可以正常工作,但永远不会完成训练阶段,因为完整的功能集为500+。该进程仍在执行,占用了大约20gb的ram,但占用了0%的CPU。我还

我正在一些相当大的培训数据集上运行scikit learn,数据集约160000000行,具有约500个功能。该平台是Ubuntu服务器14.04,硬件有100gb的ram和20个CPU核心

测试数据集大约是行数的一半

我设置n_jobs=10,am forest_size=3*number_of_特征,大约1700棵树

如果我将功能的数量减少到350个左右,它可以正常工作,但永远不会完成训练阶段,因为完整的功能集为500+。该进程仍在执行,占用了大约20gb的ram,但占用了0%的CPU。我还成功地完成了约400000行的数据集,但仅在大约1小时后就完成了两倍的功能

我正在小心地删除任何未使用的数组/对象


有人有什么想法让我试试吗?

按照我的建议安装当前的主分支版本。我确实需要像上面描述的那样“洗干净”

新版本似乎是一个很大的改进。我希望它能尽快发布


非常感谢orgisel和其他贡献者提供了如此伟大的软件

您正在使用哪个版本的scikit learn?您尝试过项目的当前主分支吗?这里有一个更新,在重新启动后,我通过培训完成了它,但现在它在预测阶段挂起,有47个RCOOS进程以root运行。我杀死了所有运行scikit的脚本进程,47个RCUS进程将一直保留,直到我重新启动服务器。您应该尝试使用当前的scikit master learn。RandomForestClassifier现在使用Python线程(单个Python进程)。它应该对高度并发的工作负载更健壮。我安装了最新的主分支(在我写这篇文章的时候提交了2小时),我收到一条错误消息,以:from..utils.sparsefuncs import inplace\u column\u scale ImportError:无法导入name inplace\u column\u scale