如何在pyspark中设置PivotMaxValue？_Pyspark_Pyspark Sql

如何在pyspark中设置PivotMaxValue？

pyspark

如何在pyspark中设置PivotMaxValue？,pyspark,pyspark-sql,Pyspark,Pyspark Sql,我正在尝试透视一个具有10000多个不同值的列。Spark中最大不同值数的默认限制是10000，我收到了这个错误透视列column_NUM_2具有超过10000个不同的值，这可能表示有错误。如果有意这样做，请将spark.sql.pivotMaxValues设置为至少为pivot列的不同值数如何在PySpark中设置此参数？您必须在Spark解释器中添加/设置此参数我在EMR（AWS）集群上使用齐柏林飞艇笔记本电脑，与您有相同的错误消息，在我在解释器中添加参数后，它工作正常希望这有帮助…

我正在尝试透视一个具有10000多个不同值的列。Spark中最大不同值数的默认限制是10000，我收到了这个错误

透视列

column_NUM_2

具有超过10000个不同的值，这可能表示有错误。如果有意这样做，请将spark.sql.pivotMaxValues设置为至少为pivot列的不同值数

如何在PySpark中设置此参数？

您必须在Spark解释器中添加/设置此参数

我在EMR（AWS）集群上使用齐柏林飞艇笔记本电脑，与您有相同的错误消息，在我在解释器中添加参数后，它工作正常

希望这有帮助……

我在启动Spark cluster之前设置了它，解决了这个问题。键是spark.sql.pivotMaxValues，我已将该值设置为1000000。您能否详细说明如何设置该参数值？是在spark上下文调用期间吗？等