Scala 如何阅读多个拼花地板表?
我有以下文件夹结构:Scala 如何阅读多个拼花地板表?,scala,apache-spark,apache-spark-sql,parquet,Scala,Apache Spark,Apache Spark Sql,Parquet,我有以下文件夹结构: . └── raw ├── enwiki-20200401-pages-articles-multistream.xml ├── enwiki-20200401-pages-articles-multistream.xml.bz2 ├── stg ├── wkp_header ├── wkp_link_external ├── wkp_link_wiki ├── wkp_page ├── wkp_page_si
.
└── raw
├── enwiki-20200401-pages-articles-multistream.xml
├── enwiki-20200401-pages-articles-multistream.xml.bz2
├── stg
├── wkp_header
├── wkp_link_external
├── wkp_link_wiki
├── wkp_page
├── wkp_page_simple
├── wkp_redirect
├── wkp_table
├── wkp_tag
├── wkp_template
├── wkp_template_param
└── wkp_text
在所有这些wkp.*
下都有*.parquet
文件
当我尝试以以下方式读取数据时:
val df = spark.read.parquet(
List(
"raw/wkp_text",
"raw/wkp_page"): _*
)
df.printSchema()
我只打印了wkp\u页面
的模式
为什么呢?如何检查是否已加载所有数据(来自传递的所有表)?如何参考wkp\u文本
表格?试试看
spark.read.option("mergeSchema", "true").parquet(...)
请注意,所有读取的拼花文件必须具有相同的模式spark.read.option(“mergeSchema”、“true”)。拼花(…)所有拼花文件必须具有相同的模式。@NirHedvat,my
*。拼花
文件具有不同的模式,因此它解释了我看到的内容。请添加您的评论作为回答。