Apache spark 如何根据spark中的文件名从目录中读取特定文件?

Apache spark 如何根据spark中的文件名从目录中读取特定文件?,apache-spark,Apache Spark,我有一个CSV文件目录。这些文件是根据日期命名的,与下图类似: 我有很多可以追溯到2012年的CSV文件 因此,我想读取仅与某个日期对应的CSV文件。在spark中这怎么可能?换句话说,我不想让我的spark引擎费心去读取所有CSV文件,因为我的数据非常大(TBs) 非常感谢您的帮助 从DataFrameReader调用load(路径)或csv(路径)方法时,可以指定要处理的文件列表 因此,一个选项是列出并过滤驱动程序上的文件,然后仅加载“最近”的文件: 编辑: 您可以使用此python代码(

我有一个CSV文件目录。这些文件是根据日期命名的,与下图类似:

我有很多可以追溯到2012年的CSV文件

因此,我想读取仅与某个日期对应的CSV文件。在spark中这怎么可能?换句话说,我不想让我的spark引擎费心去读取所有CSV文件,因为我的数据非常大(TBs)


非常感谢您的帮助

从DataFrameReader调用load(路径)或csv(路径)方法时,可以指定要处理的文件列表

因此,一个选项是列出并过滤驱动程序上的文件,然后仅加载“最近”的文件:

编辑: 您可以使用此python代码(尚未测试)


非常感谢@baitmbarek,你能提供python代码吗?非常感谢!!
val files: Seq[String] = ???
spark.read.option("header","true").csv(files:_*)
files=['foo','bar']
df=spark.read.csv(*files)