XGB分类器是否适合pyspark数据帧?

XGB分类器是否适合pyspark数据帧?,pyspark,xgboost,Pyspark,Xgboost,是否可以通过以下方式将pyspark数据帧传递给XGBClassifier: from xgboost import XGBClassifer model1 = XGBClassifier() model1.fit (df.select(features), df.select('label')) 如果没有,那么将pyspark数据帧安装到xgboost的最佳方法是什么 非常感谢我相信有两种方法可以剥这只猫的皮。 您可以: 使用toPandas方法将pyspark数据框移动到pandas,或者

是否可以通过以下方式将pyspark数据帧传递给XGBClassifier:

from xgboost import XGBClassifer
model1 = XGBClassifier()
model1.fit (df.select(features), df.select('label'))
如果没有,那么将pyspark数据帧安装到xgboost的最佳方法是什么


非常感谢

我相信有两种方法可以剥这只猫的皮。 您可以:

使用toPandas方法将pyspark数据框移动到pandas,或者更好地使用pyarrow。熊猫数据帧与XGBoost配合使用会很好。但是,您的数据需要放入内存中,因此如果您使用TB甚至GB的数据,则可能需要进行子采样。 看看xgboost4j和xgboost4j火花包。正如pyspark是一个使用py4j的包装器一样,这些人可以利用SparkML的内置功能,尽管它通常用于Scala Spark。例如,这些包中的XGBoostEstimator可以用作SparkML管道对象中的阶段。 希望这有帮助