Apache spark 查找pyspark的最新文件

Apache spark 查找pyspark的最新文件,apache-spark,pyspark,Apache Spark,Pyspark,因此,我已经找到了如何使用python查找最新文件的方法。现在我想知道是否可以使用pyspark找到最新的文件。目前我指定了一个路径,但我希望pyspark获得最新修改的文件 当前代码如下所示: df = sc.read.csv("Path://to/file", header=True, inderSchema=True) 提前感谢您的帮助。我根据以下答案复制了代码,以使HDFS API与PySpark一起工作: URI=sc.\u gateway.jvm.java.net.URI Path

因此,我已经找到了如何使用python查找最新文件的方法。现在我想知道是否可以使用pyspark找到最新的文件。目前我指定了一个路径,但我希望pyspark获得最新修改的文件

当前代码如下所示:

df = sc.read.csv("Path://to/file", header=True, inderSchema=True)

提前感谢您的帮助。

我根据以下答案复制了代码,以使HDFS API与PySpark一起工作:

URI=sc.\u gateway.jvm.java.net.URI
Path=sc.\u gateway.jvm.org.apache.hadoop.fs.Path
FileSystem=sc.\u gateway.jvm.org.apache.hadoop.fs.s3.s3文件系统
Configuration=sc.\u gateway.jvm.org.apache.hadoop.conf.Configuration
fs=#在此处创建文件系统对象
files=fs.listStatus(路径(“Path://to/file"))
#您还可以在此处筛选目录
file_status=[(文件中文件的file.getPath().toString(),file.getModificationTime())]
文件_status.sort(key=lambda tup:tup[1],reverse=True)
最近更新=文件状态[0][0]
spark.read.csv(最近更新)。选项(…)

这些文件在HDFS上吗?它们在AWS S3上。谢谢您的回答!我对pyspark一点也不熟悉,所以我只是在这里尝试一下。根据您的回答,我得到以下错误消息:AttributeError:“SparkSession”对象没有属性“\u gateway”知道为什么吗?
sc
是SparkContext。我想你现在已经明白了。