Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何阅读多个拼花地板表?_Scala_Apache Spark_Apache Spark Sql_Parquet - Fatal编程技术网

Scala 如何阅读多个拼花地板表?

Scala 如何阅读多个拼花地板表?,scala,apache-spark,apache-spark-sql,parquet,Scala,Apache Spark,Apache Spark Sql,Parquet,我有以下文件夹结构: . └── raw ├── enwiki-20200401-pages-articles-multistream.xml ├── enwiki-20200401-pages-articles-multistream.xml.bz2 ├── stg ├── wkp_header ├── wkp_link_external ├── wkp_link_wiki ├── wkp_page ├── wkp_page_si

我有以下文件夹结构:

.
└── raw
    ├── enwiki-20200401-pages-articles-multistream.xml
    ├── enwiki-20200401-pages-articles-multistream.xml.bz2
    ├── stg
    ├── wkp_header
    ├── wkp_link_external
    ├── wkp_link_wiki
    ├── wkp_page
    ├── wkp_page_simple
    ├── wkp_redirect
    ├── wkp_table
    ├── wkp_tag
    ├── wkp_template
    ├── wkp_template_param
    └── wkp_text
在所有这些
wkp.*
下都有
*.parquet
文件

当我尝试以以下方式读取数据时:

val df = spark.read.parquet(
      List(
        "raw/wkp_text",
        "raw/wkp_page"): _*
    )
df.printSchema()
我只打印了
wkp\u页面
的模式

为什么呢?如何检查是否已加载所有数据(来自传递的所有表)?如何参考
wkp\u文本
表格?

试试看

spark.read.option("mergeSchema", "true").parquet(...) 

请注意,所有读取的拼花文件必须具有相同的模式

spark.read.option(“mergeSchema”、“true”)。拼花(…)所有拼花文件必须具有相同的模式。@NirHedvat,my
*。拼花
文件具有不同的模式,因此它解释了我看到的内容。请添加您的评论作为回答。