Sorting PySpark使用分区选择顶级记录_Sorting_Apache Spark_Pyspark

Sorting PySpark使用分区选择顶级记录

sorting apache-spark pyspark

Sorting PySpark使用分区选择顶级记录,sorting,apache-spark,pyspark,Sorting,Apache Spark,Pyspark,我在S3上有一个大数据集，保存为拼花文件，由“last_update”列进行分区我想按上一次更新ASC的顺序获取前10m记录我试图将附加的数据帧保存到S3，但它永远不会结束。还有其他原因吗奇怪的是，我可以在40分钟后杀死它，但什么都没发生，然后重新开始（使用相同的数据集！），然后在4分钟后结束（顶部10m可以全部位于最旧的分区中，也可以在少数最旧的分区上分开）谢谢 sql_context.sql( """ SELECT

我在S3上有一个大数据集，保存为拼花文件，由“last_update”列进行分区

我想按上一次更新ASC的顺序获取前10m记录

我试图将附加的数据帧保存到S3，但它永远不会结束。还有其他原因吗

奇怪的是，我可以在40分钟后杀死它，但什么都没发生，然后重新开始（使用相同的数据集！），然后在4分钟后结束

（顶部10m可以全部位于最旧的分区中，也可以在少数最旧的分区上分开）

谢谢

sql_context.sql(
            """
            SELECT 
                trim(col1) as col1, 
                col2,
                col3
            FROM 
                global_temp.my_tbl
            ORDER BY last_update asc
            LIMIT {}
           """.format(args.num_of_records)
)

您的sql中是否最后漏掉了一个“）”？正如我从上面贴的问题中看到的。不，只是错拍了，编辑了