如何在pyspark中设置PivotMaxValue?

如何在pyspark中设置PivotMaxValue?,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在尝试透视一个具有10000多个不同值的列。Spark中最大不同值数的默认限制是10000,我收到了这个错误 透视列column_NUM_2具有超过10000个不同的值,这可能表示有错误。如果有意这样做,请将spark.sql.pivotMaxValues设置为至少为pivot列的不同值数 如何在PySpark中设置此参数?您必须在Spark解释器中添加/设置此参数 我在EMR(AWS)集群上使用齐柏林飞艇笔记本电脑,与您有相同的错误消息,在我在解释器中添加参数后,它工作正常 希望这有帮助…

我正在尝试透视一个具有10000多个不同值的列。Spark中最大不同值数的默认限制是10000,我收到了这个错误

透视列
column_NUM_2
具有超过10000个不同的值,这可能表示有错误。如果有意这样做,请将spark.sql.pivotMaxValues设置为至少为pivot列的不同值数


如何在PySpark中设置此参数?

您必须在Spark解释器中添加/设置此参数

我在EMR(AWS)集群上使用齐柏林飞艇笔记本电脑,与您有相同的错误消息,在我在解释器中添加参数后,它工作正常


希望这有帮助……

我在启动Spark cluster之前设置了它,解决了这个问题。键是spark.sql.pivotMaxValues,我已将该值设置为1000000。您能否详细说明如何设置该参数值?是在spark上下文调用期间吗?等