pyspark窗口函数分区限制为1000行_Pyspark

pyspark窗口函数分区限制为1000行

pyspark

pyspark窗口函数分区限制为1000行,pyspark,Pyspark,我正在尝试使用Pyspark windows函数，但是我的partitionBy似乎仅限于前1000行当前代码： window = Window.partitionBy(object_typesDF['object_type']).orderBy(article_typesDF['article_type']) objectsDF = (object_typesDF.select(col('*'), row_number().over(window).alias('row_number')).

我正在尝试使用Pyspark windows函数，但是我的partitionBy似乎仅限于前1000行

当前代码：

window = Window.partitionBy(object_typesDF['object_type']).orderBy(article_typesDF['article_type'])
objectsDF = (object_typesDF.select(col('*'), row_number().over(window).alias('row_number')).where(col('row_number') <= 100))

window=window.partitionBy（object\u typesDF['object\u type']）.orderBy（article\u typesDF['article\u type']））
objectsDF=（object_typesDF.select（col（'*'）、row_number（）.over（window）、alias（'row_number'））。其中（col（'row_number'）这很正常，display
不是spark或python函数。它是笔记本环境中的函数。我相信您正在使用齐柏林飞艇或Databricks
如果要检索所有数据，请使用collect
，但它会返回一个python对象。您也可以使用toPandas（）
来处理框架