Sorting PySpark使用分区选择顶级记录
我在S3上有一个大数据集,保存为拼花文件,由“last_update”列进行分区 我想按上一次更新ASC的顺序获取前10m记录 我试图将附加的数据帧保存到S3,但它永远不会结束。 还有其他原因吗 奇怪的是,我可以在40分钟后杀死它,但什么都没发生,然后重新开始(使用相同的数据集!),然后在4分钟后结束 (顶部10m可以全部位于最旧的分区中,也可以在少数最旧的分区上分开) 谢谢Sorting PySpark使用分区选择顶级记录,sorting,apache-spark,pyspark,Sorting,Apache Spark,Pyspark,我在S3上有一个大数据集,保存为拼花文件,由“last_update”列进行分区 我想按上一次更新ASC的顺序获取前10m记录 我试图将附加的数据帧保存到S3,但它永远不会结束。 还有其他原因吗 奇怪的是,我可以在40分钟后杀死它,但什么都没发生,然后重新开始(使用相同的数据集!),然后在4分钟后结束 (顶部10m可以全部位于最旧的分区中,也可以在少数最旧的分区上分开) 谢谢 sql_context.sql( """ SELECT
sql_context.sql(
"""
SELECT
trim(col1) as col1,
col2,
col3
FROM
global_temp.my_tbl
ORDER BY last_update asc
LIMIT {}
""".format(args.num_of_records)
)
您的sql中是否最后漏掉了一个“)”?正如我从上面贴的问题中看到的。不,只是错拍了,编辑了