Python 如何在hadoop集群上运行xgboost进行分布式模型培训?

Python 如何在hadoop集群上运行xgboost进行分布式模型培训?,python,hadoop,machine-learning,xgboost,Python,Hadoop,Machine Learning,Xgboost,我正在尝试使用XGBoost在1亿个上下文广告印象上构建CTR预测模型,为了实现同样的效果,我想在hadoop上尝试XGBoost,因为我有HDFS中可用的所有印象数据 有人可以引用python的工作教程吗 有很多方法可以做到这一点: 如果您有一些较低级别的逻辑分组,比如某个项目部门的CTR,并且您希望为部门创建本地化模型,那么您可以使用map reduce类型的设置。它将确保属于单个部门的所有数据最终都位于单个纱线容器中,并且您可以在该数据上构建模型。与基于map reduce的进程相比,NL

我正在尝试使用XGBoost在1亿个上下文广告印象上构建CTR预测模型,为了实现同样的效果,我想在hadoop上尝试XGBoost,因为我有HDFS中可用的所有印象数据


有人可以引用python的工作教程吗

有很多方法可以做到这一点:

  • 如果您有一些较低级别的逻辑分组,比如某个项目部门的CTR,并且您希望为部门创建本地化模型,那么您可以使用map reduce类型的设置。它将确保属于单个部门的所有数据最终都位于单个纱线容器中,并且您可以在该数据上构建模型。与基于map reduce的进程相比,NLineInputFormat是一个巧妙的技巧,它可以使这个仅映射的进程大大加快速度

  • 您可以使用Spark版本的XGBoost进行分布式机器学习,以了解更多信息,请参阅

  • 如果您正在决定您的基础设施,那么也可以尝试一下AWS,如这里所述。它不是hadoop,而是伪分布式机器学习: