Java Spark:partitionBy的奇怪行为，字段变得无法读取_Java_Scala_Apache Spark

Java Spark:partitionBy的奇怪行为，字段变得无法读取

java scala apache-spark

Java Spark:partitionBy的奇怪行为，字段变得无法读取,java,scala,apache-spark,Java,Scala,Apache Spark,我有一个csv记录，并作为数据帧导入： --------------------------- name | age | entranceDate | --------------------------- Tom | 12 | 2019-10-01 | --------------------------- Mary | 15 | 2019-10-01 | --------------------------- 当我使用： String[] partitions = n

我有一个csv记录，并作为数据帧导入：

--------------------------- 
name | age | entranceDate | 
---------------------------
Tom  | 12  | 2019-10-01   | 
---------------------------
Mary | 15  | 2019-10-01   | 
---------------------------

当我使用：

String[] partitions =
new String[] {
  "name",
  "entranceDate"
};

df.write()
.partitionBy(partitions)
.mode(SaveMode.Append)
.parquet(parquetPath);

它将我的拼花写入文件（.parquet）。但奇怪的是，当我再次试图从拼花地板上读到：

public static StructType createSchema() {
    final StructType schema = DataTypes.createStructType(Arrays.asList(
            DataTypes.createStructField("name", DataTypes.StringType, false),
            DataTypes.createStructField("age", DataTypes.StringType, false),
            DataTypes.createStructField("entranceDate", DataTypes.StringType, false)
    ));
    return schema;
}


sqlContext.read()
    .schema(createSchema())
    .parquet(pathToParquet);
    .show()

字段

name

变得不可读：

|          name |  age | entranceDate|
+--------------------+----+
|?F...|Tom| 2019-10-01 | 
|?F...|Mary| 2019-10-01 |
+--------------------+

这怎么可能？但是我试过，如果我不把

.partitionBy（partitions）

行放进去，我就可以毫无问题地阅读了

有人能解释一下根本原因吗？我已经搜索了一段时间，但没有找到原因

编辑：我试图检索“名称”字段（

row.getString（0）

），得到如下值，但无法读取：

?F??m???9??A?Aorg/apache/spark/sql/catalyst/expressions/codegen/UnsafeRowWriter??:??A?Aorg.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter??!:??A?Aorg/apache/spark/sql/catalyst/expressions/codegen/UnsafeRowWriter??7:??A?Aorg/apache/spark/sql/catalyst/expressions/codegen/UnsafeRowWriter?-??9????Q:??A?Forg/apache/spark/sql/catalyst/expressions/BaseGenericInternalRow$class??h:??,??A?Forg.apache.spark.sql.catalyst.expressions.BaseGenericInternalRow$class?????:??A?Forg/apache/spark/sql/catalyst/expressions/BaseGenericInternalRow$class]??6x]???:???:???]??:??????x?:??????b?x?:?????c?x?:?????r?x?:?????c?x?:?????1c?x?:???????x?:?????.??x?:?????Nc?x?:?????]c?x?:????????x?:???????x?:????????x?:???????x?:????????x?:???????xy?x????:??]??X;??T???????:???:??????:???5??x?:???5?.???:???x????:??K0?i?x?i?x??6x6x??6x6x???:??A?Eorg/apache/spark/sql/catalyst/trees/TreeNode$$anonfun$transformDown$2??
;???;?A?Eorg.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformDown$2????#;??A?Eorg/apache/spark/sql/catalyst/trees/TreeNode$$anonfun$transformDown$2???j?v9??:???:??:???:??7;??9;???<?;;??>;?????H;???"?@?x?i?xux?]?E;???"?@?x?i?xux????:??;??????:???5??x[;???5?.??[;???x???c;??K0?i?x?i?x??6x6x??6x6x???j?v9?h;???:?h;??[;??s;??u;???<?w;??z;??????;???"?egx?i?xux?]??;???"?egx?i?xux???h;???;??????:???5??b?x?;???5?.???;???b?x????;??K0?i?x?i?x??6x6x??6x6x???j?v9??;???:??;??;??;??;???<??;??;??????;???"?o_x?i?xux?]??;???"?o_x?i?xux????;??<??????:???5?c?x?;???5?.???;??c?x????;??K0?i?x?i?x??6x6x??6x6x???j?v9??;???:??;???;???;???;???<??;???;??????;???"??lx?i?xux?]??;???"??lx?i?xux????;??H<??????:???5?r?x<???5?.??<??r?x???<??K0?i?x?i?x??6x6x??6x6x???j?v9?<???:?<??<??'<??)<???<?+<??.<?????8<???"?;_x?i?xux?]?5<???"?;_x?i?xux???<??<??????:???5?c?xK<???5?.??K<??c?x???S<??K0?i?x?i?x??6x6x??6x6x???j?v9?X<???:?X<??K<??c<??e<???<?g<??j<?????t<???"?H_x?i?xux?]?q<???"?H_x?i?xux???X<???<??????:???5?1c?x?<???5?.???<??1c?x????<??K0?i?x?i?x??6x6x??6x6x???j?v9??<???:??<??<??<??<???<??<??<??????<???"?|_x?i?x?/x?]??<???"?|_x?i?x?/x????<???<??????:???5???x?<???5?.???<???x????<??K0?i?x?i?x??6x6x??6x6x???j?v9??<???:??<???<???<???<???<??<???<??????<???"??_x?i?x?/x?]??<???"??_x?i?x?/x????<??8=??????:???5?.??x?<???5?.???<??.??x???=??K0?i?x?i?x??6x6x??6x6x???j?v9?=???:?=???<??=??=???<?=??=?????(=???"?T_x?i?xux?]?%=???"?T_x?i?xux???=??t=??????:???5?Nc?x;=???5?.??;=??Nc?x???C=??K0?i?x?i?x??6x6x??6x6x???j?v9?H=???:?H=??;=??S=??U=???<?W=??Z=?????d=???"?{lx?i?xux?]?a=???"?{lx?i?xux???H=??=??????:???5?]c?xw=???5?.??w=??]c?x???=??K0?i?x

？F？？m？？？9？？A？Aorg/apache/spark/sql/catalyst/expressions/codegen/UnsafeRowWriter？？？？？A？Aorg.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter？？A？Aorg/apache/spark/sql/catalyst/expressions/codegen/UnsafeRowWriter？7:？A？Aorg/apache/spark/sql/catalyst/expressions/UnsafeRowWriter？9？？，“A”一个“A”一个“A”一个“A”一个“A”一个“A”一个“A”一个“A”一个“A”一个“阿帕奇/火花/火花/sql/催化剂/表达式/基本通用的一个“A”一个“A”一个“A”一个“A”一个“A A”一个“阿帕帕帕奇.火花.火花.一个“A A一个“A一个“A”一个“A一个“A一个“A”一个“A一个“A一个“A一个“阿阿帕帕帕帕帕帕帕帕帕奇.火花.火花.火花.火花.火花.一个”一个“A一个“A一个“A一个“一个”一个“A一个”一个“A一个“一个催化剂/一个”一个“A一个“A一个”一个“A一个催化剂/一个“催化剂/一个”一个“一个x:？？？x:？？？x:？？？x:？？？x:？？？x:？？？xy？x？？？？：？？]？？？X；？？T？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？？5X？？？？？？？？？？？？？？5X？？？？？？？？5X？？？？？？？？K0？Ix？Ix？Ix？Ix？6X6X6X？？？？？？？A？Eorg apache/spark/sql/catalyst/trees/TreeNode$$anonfun$transformDown$2？？
;???;?A？Eorg.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformDown$2；？？A？Eorg/apache/spark/sql/catalyst/trees/TreeNode$$anonfun$transformDown$2？？？j？v9？？？：7；？？9;???;?????H“？@？x？i？xux”]？E；？“？@？x？i？xux？？？由于partitionBy保存文件的方式，列被混淆了。
partitionBy子句中指定的所有列都存储为目录结构。
在您的情况下，它将类似于：
<<root-path>>/name=???/entranceDate=???/???.parquet

/name=？？/enterdate=？？/？？。拼花地板

这强制在目录的L->R
顺序中，在架构的末尾指定分区列
因此，在读取拼花地板文件时，如果将模式指定为[age，name，enterdate]
，则应生成正确的值。
由于分区方式保存文件的方式，列会混淆。
partitionBy子句中指定的所有列都存储为目录结构。
在您的情况下，它将类似于：
<<root-path>>/name=???/entranceDate=???/???.parquet

/name=？？/enterdate=？？/？？。拼花地板

这强制在目录的L->R
顺序中，在架构的末尾指定分区列
因此，在读取拼花地板文件时，如果您将模式指定为[age，name，enterdate]
，它应该会产生正确的值。
您确定age
是一个字符串吗？从上一句话来看，似乎年龄和名称有点混淆（name在age列中）嗨，举个例子，因为我不能在这里粘贴我的真实数据，但这三列都是stringI类型我已经完全运行了你的代码和我得到的：`+--+--+--+--age--name--EnterDate--+--11--+--Tom 2019-10-01--15--Mary--2019-10-01++--+--嗨，我不知道现在，如果您可以重现错误，因为我在4个执行器上运行作业，但这是我得到的。您确定age
是一个字符串吗？从上一条语句中，似乎不知何故年龄和名称混淆了（name在age列中）嗨，举个例子，因为我不能在这里粘贴我的真实数据，但这三列都是stringI类型我已经完全运行了你的代码和我得到的：`+--+--+--+--age--name--EnterDate--+--11--+--Tom 2019-10-01--15--Mary--2019-10-01++--+--嗨，我不知道现在，如果您可以重现错误，因为我在4个执行器上运行作业，但这是我得到的我发现您的解释非常有趣，但我不太明白，我确实在读取文件时指定了模式，为什么名称字段会损坏？我添加了“名称”字段值的详细信息，您能看一下吗？非常感谢，让我重新表述一下。发生这种行为是因为在对数据集进行分区时，列的位置发生了变化。name
列现在在age
column之后。很高兴能够提供帮助！如果您能提供帮助，我将非常感激！您好，我找到了您的解释ion非常有趣，但我不太明白，我确实在读取文件时指定了模式，为什么名称字段会损坏？我添加了“名称”字段值的详细信息，您能看一下吗？非常感谢，让我重新表述一下。发生这种行为是因为在您对数据集进行分区时，列的位置发生了变化。name
列现在在age
column之后。很高兴能够提供帮助！如果您能提供帮助，我将非常感激！