Pyspark 机器学习目标列_Pyspark_Apache Spark Sql_Reduce

Pyspark 机器学习目标列

pyspark

Pyspark 机器学习目标列,pyspark,apache-spark-sql,reduce,Pyspark,Apache Spark Sql,Reduce,我的多重分类问题有一个目标列ActionName。目标列有4个唯一值。我需要我的模型来预测ActionName是0、1、2还是3。我发现，我将在其上训练模型的历史数据中，这些值的出现次数不同，而值3恰好是数据的52%，而其他三个值的百分比较小。如何减少目标列中有3作为值的行数？我正在使用Sagemaker笔记本，并使用PySpark运行它

我的多重分类问题有一个目标列

ActionName

。目标列有4个唯一值。我需要我的模型来预测

ActionName

是0、1、2还是3。我发现，我将在其上训练模型的历史数据中，这些值的出现次数不同，而值

恰好是数据的52%，而其他三个值的百分比较小。如何减少目标列中有

作为值的行数？我正在使用Sagemaker笔记本，并使用PySpark运行它