Scala 如何在spark数据帧中从AWS S3读取多个文件？_Scala_Apache Spark_Apache Spark Sql

Scala 如何在spark数据帧中从AWS S3读取多个文件？

scala apache-spark

Scala 如何在spark数据帧中从AWS S3读取多个文件？,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我在S3 bucket中有一堆文件使用这种模式 myfile_2018_(0).tab myfile_2018_(1).tab myfile_2018_(2).tab .. myfile_2018_(150).tab 我想通过读取所有这些文件来创建一个单火花数据帧。如何创建此正则表达式模式并读取文件这些文件有标题。我正在使用Scala来完成这项任务。只需指定一个glob模式，如下所示，这是假设它们位于同一文件夹中： val input = spark.read.option("header"

我在S3 bucket中有一堆文件使用这种模式

myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab

我想通过读取所有这些文件来创建一个单火花数据帧。如何创建此正则表达式模式并读取文件

这些文件有标题。我正在使用Scala来完成这项任务。

只需指定一个glob模式，如下所示，这是假设它们位于同一文件夹中：

val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")

只需指定一个glob模式，如下所示，假设它们位于同一文件夹中：

val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")

in_schema-如果要传递自己的模式，或者删除此选项，则可以传递自己的模式

如果需要文件夹中的所有文件且架构相同，则可以直接从上面的文件夹中读取

input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")

in_schema-如果要传递自己的模式，或者删除此选项，则可以传递自己的模式

如果需要文件夹中的所有文件且架构相同，则可以直接从上面的文件夹中读取

input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")