Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sorting PySpark使用分区选择顶级记录_Sorting_Apache Spark_Pyspark - Fatal编程技术网

Sorting PySpark使用分区选择顶级记录

Sorting PySpark使用分区选择顶级记录,sorting,apache-spark,pyspark,Sorting,Apache Spark,Pyspark,我在S3上有一个大数据集,保存为拼花文件,由“last_update”列进行分区 我想按上一次更新ASC的顺序获取前10m记录 我试图将附加的数据帧保存到S3,但它永远不会结束。 还有其他原因吗 奇怪的是,我可以在40分钟后杀死它,但什么都没发生,然后重新开始(使用相同的数据集!),然后在4分钟后结束 (顶部10m可以全部位于最旧的分区中,也可以在少数最旧的分区上分开) 谢谢 sql_context.sql( """ SELECT

我在S3上有一个大数据集,保存为拼花文件,由“last_update”列进行分区

我想按上一次更新ASC的顺序获取前10m记录

我试图将附加的数据帧保存到S3,但它永远不会结束。 还有其他原因吗

奇怪的是,我可以在40分钟后杀死它,但什么都没发生,然后重新开始(使用相同的数据集!),然后在4分钟后结束

(顶部10m可以全部位于最旧的分区中,也可以在少数最旧的分区上分开)

谢谢

sql_context.sql(
            """
            SELECT 
                trim(col1) as col1, 
                col2,
                col3
            FROM 
                global_temp.my_tbl
            ORDER BY last_update asc
            LIMIT {}
           """.format(args.num_of_records)
)

您的sql中是否最后漏掉了一个“)”?正如我从上面贴的问题中看到的。不,只是错拍了,编辑了