Scala 如何阅读多个拼花地板表？_Scala_Apache Spark_Apache Spark Sql_Parquet

Scala 如何阅读多个拼花地板表？

scala apache-spark

Scala 如何阅读多个拼花地板表？,scala,apache-spark,apache-spark-sql,parquet,Scala,Apache Spark,Apache Spark Sql,Parquet,我有以下文件夹结构： . └── raw ├── enwiki-20200401-pages-articles-multistream.xml ├── enwiki-20200401-pages-articles-multistream.xml.bz2 ├── stg ├── wkp_header ├── wkp_link_external ├── wkp_link_wiki ├── wkp_page ├── wkp_page_si

我有以下文件夹结构：

.
└── raw
    ├── enwiki-20200401-pages-articles-multistream.xml
    ├── enwiki-20200401-pages-articles-multistream.xml.bz2
    ├── stg
    ├── wkp_header
    ├── wkp_link_external
    ├── wkp_link_wiki
    ├── wkp_page
    ├── wkp_page_simple
    ├── wkp_redirect
    ├── wkp_table
    ├── wkp_tag
    ├── wkp_template
    ├── wkp_template_param
    └── wkp_text

在所有这些

wkp.*

下都有

*.parquet

文件

当我尝试以以下方式读取数据时：

val df = spark.read.parquet(
      List(
        "raw/wkp_text",
        "raw/wkp_page"): _*
    )
df.printSchema()

我只打印了

wkp\u页面

的模式

为什么呢？如何检查是否已加载所有数据（来自传递的所有表）？如何参考

wkp\u文本

表格？

试试看

spark.read.option("mergeSchema", "true").parquet(...)

请注意，所有读取的拼花文件必须具有相同的模式

spark.read.option（“mergeSchema”、“true”）。拼花（…）所有拼花文件必须具有相同的模式。@NirHedvat，my

*。拼花

文件具有不同的模式，因此它解释了我看到的内容。请添加您的评论作为回答。