Apache spark 过滤PySpark数据帧会扰乱订单

Apache spark 过滤PySpark数据帧会扰乱订单,apache-spark,pyspark,apache-spark-sql,pyspark-sql,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Sql,有人知道为什么会这样吗 当我过滤它时: 编辑:这就是我添加最后两列的方式。在我看来,因为我使用pandas_udf生成最后两列,所以有些事情变得疯狂,而我可以毫无困难地过滤前四列,这是我使用普通udf构建的 @pandas_udf('string', PandasUDFType.SCALAR) def blocking(ids,x,y): .... return pd.Series(final) df4 = df3.withColumn('blocking_index', \ blocki

有人知道为什么会这样吗

当我过滤它时:

编辑:这就是我添加最后两列的方式。在我看来,因为我使用pandas_udf生成最后两列,所以有些事情变得疯狂,而我可以毫无困难地过滤前四列,这是我使用普通udf构建的

@pandas_udf('string', PandasUDFType.SCALAR)
def blocking(ids,x,y):
....
return pd.Series(final)

df4 = df3.withColumn('blocking_index', \
blocking(df3.id,df3.ratepayer,df3.CharityName))

。数据类型很好。除非我们可以重新创建您的问题,否则我们无法帮助您。请阅读并尝试提供一个简单的答案。