Apache spark S3DistCp能否合并.snappy.paruqet文件?

Apache spark S3DistCp能否合并.snappy.paruqet文件?,apache-spark,hive,emr,Apache Spark,Hive,Emr,S3DistCp能否将Spark应用程序输出的多个存储为.snappy.parquet的文件合并到一个文件中,并使生成的文件能够被Hive读取?我还试图将较小的snappy parquet文件合并到较大的snappy parquet文件中。 使用 aws emr添加步骤--群集id{clusterID}--步骤file://filename.json 及 aws emr等待步骤完成--群集id{clusterID}--步骤id{stepID} 命令运行正常,但当我尝试使用拼花工具读回合并文件时,

S3DistCp能否将Spark应用程序输出的多个存储为.snappy.parquet的文件合并到一个文件中,并使生成的文件能够被Hive读取?

我还试图将较小的snappy parquet文件合并到较大的snappy parquet文件中。 使用 aws emr添加步骤--群集id{clusterID}--步骤file://filename.json 及 aws emr等待步骤完成--群集id{clusterID}--步骤id{stepID}

命令运行正常,但当我尝试使用拼花工具读回合并文件时,java.io.EOFException读取失败


联系AWS支持团队。他们说在拼花文件上使用s3distcp时存在已知问题,他们正在进行修复,但没有修复的ETA。

有更新吗?这有用吗?aws支持团队有没有回复过你?