Python 如何在hadoop集群上运行xgboost进行分布式模型培训？_Python_Hadoop_Machine Learning_Xgboost

Python 如何在hadoop集群上运行xgboost进行分布式模型培训？

python hadoop machine-learning

Python 如何在hadoop集群上运行xgboost进行分布式模型培训？,python,hadoop,machine-learning,xgboost,Python,Hadoop,Machine Learning,Xgboost,我正在尝试使用XGBoost在1亿个上下文广告印象上构建CTR预测模型，为了实现同样的效果，我想在hadoop上尝试XGBoost，因为我有HDFS中可用的所有印象数据有人可以引用python的工作教程吗有很多方法可以做到这一点：如果您有一些较低级别的逻辑分组，比如某个项目部门的CTR，并且您希望为部门创建本地化模型，那么您可以使用map reduce类型的设置。它将确保属于单个部门的所有数据最终都位于单个纱线容器中，并且您可以在该数据上构建模型。与基于map reduce的进程相比，NL

我正在尝试使用XGBoost在1亿个上下文广告印象上构建CTR预测模型，为了实现同样的效果，我想在hadoop上尝试XGBoost，因为我有HDFS中可用的所有印象数据

有人可以引用python的工作教程吗

有很多方法可以做到这一点：

如果您有一些较低级别的逻辑分组，比如某个项目部门的CTR，并且您希望为部门创建本地化模型，那么您可以使用map reduce类型的设置。它将确保属于单个部门的所有数据最终都位于单个纱线容器中，并且您可以在该数据上构建模型。与基于map reduce的进程相比，NLineInputFormat是一个巧妙的技巧，它可以使这个仅映射的进程大大加快速度

您可以使用Spark版本的XGBoost进行分布式机器学习，以了解更多信息，请参阅

如果您正在决定您的基础设施，那么也可以尝试一下AWS，如这里所述。它不是hadoop，而是伪分布式机器学习：