Scala 如何在spark数据帧中从AWS S3读取多个文件?
我在S3 bucket中有一堆文件使用这种模式Scala 如何在spark数据帧中从AWS S3读取多个文件?,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我在S3 bucket中有一堆文件使用这种模式 myfile_2018_(0).tab myfile_2018_(1).tab myfile_2018_(2).tab .. myfile_2018_(150).tab 我想通过读取所有这些文件来创建一个单火花数据帧。如何创建此正则表达式模式并读取文件 这些文件有标题。我正在使用Scala来完成这项任务。只需指定一个glob模式,如下所示,这是假设它们位于同一文件夹中: val input = spark.read.option("header"
myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab
我想通过读取所有这些文件来创建一个单火花数据帧。如何创建此正则表达式模式并读取文件
这些文件有标题。我正在使用Scala来完成这项任务。只需指定一个glob模式,如下所示,这是假设它们位于同一文件夹中:
val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
只需指定一个glob模式,如下所示,假设它们位于同一文件夹中:
val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
in_schema-如果要传递自己的模式,或者删除此选项,则可以传递自己的模式
如果需要文件夹中的所有文件且架构相同,则可以直接从上面的文件夹中读取
input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")
in_schema-如果要传递自己的模式,或者删除此选项,则可以传递自己的模式
如果需要文件夹中的所有文件且架构相同,则可以直接从上面的文件夹中读取
input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")