Python 如何在hadoop集群上运行xgboost进行分布式模型培训?
我正在尝试使用XGBoost在1亿个上下文广告印象上构建CTR预测模型,为了实现同样的效果,我想在hadoop上尝试XGBoost,因为我有HDFS中可用的所有印象数据Python 如何在hadoop集群上运行xgboost进行分布式模型培训?,python,hadoop,machine-learning,xgboost,Python,Hadoop,Machine Learning,Xgboost,我正在尝试使用XGBoost在1亿个上下文广告印象上构建CTR预测模型,为了实现同样的效果,我想在hadoop上尝试XGBoost,因为我有HDFS中可用的所有印象数据 有人可以引用python的工作教程吗 有很多方法可以做到这一点: 如果您有一些较低级别的逻辑分组,比如某个项目部门的CTR,并且您希望为部门创建本地化模型,那么您可以使用map reduce类型的设置。它将确保属于单个部门的所有数据最终都位于单个纱线容器中,并且您可以在该数据上构建模型。与基于map reduce的进程相比,NL
有人可以引用python的工作教程吗 有很多方法可以做到这一点: