Apache spark 查找pyspark的最新文件_Apache Spark_Pyspark

Apache spark 查找pyspark的最新文件

apache-spark pyspark

Apache spark 查找pyspark的最新文件,apache-spark,pyspark,Apache Spark,Pyspark,因此，我已经找到了如何使用python查找最新文件的方法。现在我想知道是否可以使用pyspark找到最新的文件。目前我指定了一个路径，但我希望pyspark获得最新修改的文件当前代码如下所示： df = sc.read.csv("Path://to/file", header=True, inderSchema=True) 提前感谢您的帮助。我根据以下答案复制了代码，以使HDFS API与PySpark一起工作： URI=sc.\u gateway.jvm.java.net.URI Path

因此，我已经找到了如何使用python查找最新文件的方法。现在我想知道是否可以使用pyspark找到最新的文件。目前我指定了一个路径，但我希望pyspark获得最新修改的文件

当前代码如下所示：

df = sc.read.csv("Path://to/file", header=True, inderSchema=True)

提前感谢您的帮助。

我根据以下答案复制了代码，以使HDFS API与PySpark一起工作：

URI=sc.\u gateway.jvm.java.net.URI
Path=sc.\u gateway.jvm.org.apache.hadoop.fs.Path
FileSystem=sc.\u gateway.jvm.org.apache.hadoop.fs.s3.s3文件系统
Configuration=sc.\u gateway.jvm.org.apache.hadoop.conf.Configuration
fs=#在此处创建文件系统对象
files=fs.listStatus（路径（“Path://to/file"))
#您还可以在此处筛选目录
file_status=[（文件中文件的file.getPath（）.toString（），file.getModificationTime（））]
文件_status.sort（key=lambda tup:tup[1]，reverse=True）
最近更新=文件状态[0][0]
spark.read.csv（最近更新）。选项（…）

这些文件在HDFS上吗？它们在AWS S3上。谢谢您的回答！我对pyspark一点也不熟悉，所以我只是在这里尝试一下。根据您的回答，我得到以下错误消息：AttributeError:“SparkSession”对象没有属性“\u gateway”知道为什么吗？

sc

是SparkContext。我想你现在已经明白了。