pyspark窗口函数分区限制为1000行

pyspark窗口函数分区限制为1000行,pyspark,Pyspark,我正在尝试使用Pyspark windows函数,但是我的partitionBy似乎仅限于前1000行 当前代码: window = Window.partitionBy(object_typesDF['object_type']).orderBy(article_typesDF['article_type']) objectsDF = (object_typesDF.select(col('*'), row_number().over(window).alias('row_number')).

我正在尝试使用Pyspark windows函数,但是我的partitionBy似乎仅限于前1000行

当前代码:

window = Window.partitionBy(object_typesDF['object_type']).orderBy(article_typesDF['article_type'])
objectsDF = (object_typesDF.select(col('*'), row_number().over(window).alias('row_number')).where(col('row_number') <= 100))
window=window.partitionBy(object\u typesDF['object\u type']).orderBy(article\u typesDF['article\u type']))

objectsDF=(object_typesDF.select(col('*')、row_number().over(window)、alias('row_number'))。其中(col('row_number')这很正常,
display
不是spark或python函数。它是笔记本环境中的函数。我相信您正在使用齐柏林飞艇或Databricks

如果要检索所有数据,请使用
collect
,但它会返回一个python对象。您也可以使用
toPandas()
来处理框架