Apache spark 为什么我会得到“一个”呢;不是拼花锉刀;读取拼花地板文件时出错

Apache spark 为什么我会得到“一个”呢;不是拼花锉刀;读取拼花地板文件时出错,apache-spark,hdfs,parquet,Apache Spark,Hdfs,Parquet,从hdfs读取拼花地板文件时发生以下错误 2020-06-04 14:11:23 WARN TaskSetManager:66 - Lost task 44.0 in stage 1.0 (TID 3514, 192.168.16.41, executor 1): java.lang.RuntimeException: hdfs://data-hadoop-hdfs-nn.hadoop:8020/somedata/serviceName=someService/masterAccount=ma

从hdfs读取拼花地板文件时发生以下错误

2020-06-04 14:11:23 WARN  TaskSetManager:66 - Lost task 44.0 in stage 1.0 (TID 3514, 192.168.16.41, executor 1): java.lang.RuntimeException: hdfs://data-hadoop-hdfs-nn.hadoop:8020/somedata/serviceName=someService/masterAccount=ma/siteAccount=sa/systemCode=111/part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [55, 49, 98, 48]
我在网上发现了类似的问题,但大多数人都试图阅读拼花地板以外的其他文件类型。 我100%确信这个文件是以拼花地板格式编写的,正如日志中所示。文件名为part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet

只有一个作业写入此somdata文件夹,而此作业仅写入拼花地板(spark结构化流式作业) 结尾还说这是一个拼花文件。
由同一作业编写的其他拼花文件不会抛出此错误

您是否尝试过此操作-可能尝试使用拼花工具()验证您的文件是否为正确的拼花格式。您是否尝试过此操作-可能尝试使用拼花工具()验证您的文件是否为正确的拼花格式。