Pyspark 机器学习目标列

Pyspark 机器学习目标列,pyspark,apache-spark-sql,reduce,Pyspark,Apache Spark Sql,Reduce,我的多重分类问题有一个目标列ActionName。目标列有4个唯一值。我需要我的模型来预测ActionName是0、1、2还是3。我发现,我将在其上训练模型的历史数据中,这些值的出现次数不同,而值3恰好是数据的52%,而其他三个值的百分比较小。如何减少目标列中有3作为值的行数?我正在使用Sagemaker笔记本,并使用PySpark运行它

我的多重分类问题有一个目标列
ActionName
。目标列有4个唯一值。我需要我的模型来预测
ActionName
是0、1、2还是3。我发现,我将在其上训练模型的历史数据中,这些值的出现次数不同,而值
3
恰好是数据的52%,而其他三个值的百分比较小。如何减少目标列中有
3
作为值的行数?我正在使用Sagemaker笔记本,并使用PySpark运行它