Apache spark S3DistCp能否合并.snappy.paruqet文件？_Apache Spark_Hive_Emr

Apache spark S3DistCp能否合并.snappy.paruqet文件？

apache-spark hive

Apache spark S3DistCp能否合并.snappy.paruqet文件？,apache-spark,hive,emr,Apache Spark,Hive,Emr,S3DistCp能否将Spark应用程序输出的多个存储为.snappy.parquet的文件合并到一个文件中，并使生成的文件能够被Hive读取？我还试图将较小的snappy parquet文件合并到较大的snappy parquet文件中。使用 aws emr添加步骤--群集id{clusterID}--步骤file://filename.json 及 aws emr等待步骤完成--群集id{clusterID}--步骤id{stepID} 命令运行正常，但当我尝试使用拼花工具读回合并文件时，

S3DistCp能否将Spark应用程序输出的多个存储为.snappy.parquet的文件合并到一个文件中，并使生成的文件能够被Hive读取？

我还试图将较小的snappy parquet文件合并到较大的snappy parquet文件中。使用 aws emr添加步骤--群集id{clusterID}--步骤file://filename.json 及 aws emr等待步骤完成--群集id{clusterID}--步骤id{stepID}

命令运行正常，但当我尝试使用拼花工具读回合并文件时，java.io.EOFException读取失败

联系AWS支持团队。他们说在拼花文件上使用s3distcp时存在已知问题，他们正在进行修复，但没有修复的ETA。

有更新吗？这有用吗？aws支持团队有没有回复过你？