Python 钻孔无法读取Spark生成的拼花地板中的大多数列

Python 钻孔无法读取Spark生成的拼花地板中的大多数列,python,apache-spark,hdfs,parquet,apache-drill,Python,Apache Spark,Hdfs,Parquet,Apache Drill,我在分布式模式下仅在datanodes上运行Drill 1.15(3个节点,每个节点有32GB内存)。 我正在尝试读取HDFs中Spark作业生成的拼花文件 生成的文件正在spark中读取,很好,但在Drill中读取时,除了少数列之外,它似乎对其他列不起作用 org.apache.drill.common.exceptions.UserRemoteException:数据读取 错误:从磁盘读取时发生异常。文件: [文件名].拼花地板 列:行组开始:111831文件: [文件名].拼花地板 列:行

我在分布式模式下仅在datanodes上运行Drill 1.15(3个节点,每个节点有32GB内存)。 我正在尝试读取HDFs中Spark作业生成的拼花文件

生成的文件正在spark中读取,很好,但在Drill中读取时,除了少数列之外,它似乎对其他列不起作用

org.apache.drill.common.exceptions.UserRemoteException:数据读取 错误:从磁盘读取时发生异常。文件: [文件名].拼花地板 列:行组开始:111831文件: [文件名].拼花地板 列:行组开始:111831片段0:0[错误Id: [主机]:31010上的[错误id]

在dfs的钻孔配置中,我有拼花地板格式的默认配置

我正在尝试运行一个简单的查询:

select * from dfs.`/hdfs/path/to/parquet/file.parquet`
文件大小,如果也在10秒的MBs不是很多

我使用Spark 2.3版本生成带有1.15版本Drill的拼花地板文件

是否缺少任何配置或其他点?

看起来像个bug。
请创建票证并提供file.parquet和日志文件。

谢谢

这是一个有趣的问题,但除非您能提供一个@user10465355,否则没有那么大的价值。我已经添加了查询示例和节点信息。是否有任何其他具体的细节,你正在寻找?我绝对可以提供给你that@Vitalli谢谢你的回复。由于数据限制,我无法提供精确的拼花地板,但我可以尝试在另一个文件中复制相同的拼花地板。