Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何在spark数据帧中从AWS S3读取多个文件?_Scala_Apache Spark_Apache Spark Sql - Fatal编程技术网

Scala 如何在spark数据帧中从AWS S3读取多个文件?

Scala 如何在spark数据帧中从AWS S3读取多个文件?,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我在S3 bucket中有一堆文件使用这种模式 myfile_2018_(0).tab myfile_2018_(1).tab myfile_2018_(2).tab .. myfile_2018_(150).tab 我想通过读取所有这些文件来创建一个单火花数据帧。如何创建此正则表达式模式并读取文件 这些文件有标题。我正在使用Scala来完成这项任务。只需指定一个glob模式,如下所示,这是假设它们位于同一文件夹中: val input = spark.read.option("header"

我在S3 bucket中有一堆文件使用这种模式

myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab
我想通过读取所有这些文件来创建一个单火花数据帧。如何创建此正则表达式模式并读取文件


这些文件有标题。我正在使用Scala来完成这项任务。

只需指定一个glob模式,如下所示,这是假设它们位于同一文件夹中:

val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")

只需指定一个glob模式,如下所示,假设它们位于同一文件夹中:

val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
in_schema-如果要传递自己的模式,或者删除此选项,则可以传递自己的模式

如果需要文件夹中的所有文件且架构相同,则可以直接从上面的文件夹中读取

input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")
in_schema-如果要传递自己的模式,或者删除此选项,则可以传递自己的模式

如果需要文件夹中的所有文件且架构相同,则可以直接从上面的文件夹中读取

input = spark.read
.format('com.databricks.spark.csv')
.option("delimiter", "\001")
.option("header", "true")
.option("nullValue", "null")
.load("s3://bucket-name/path/to/data/")