Python 钻孔无法读取Spark生成的拼花地板中的大多数列_Python_Apache Spark_Hdfs_Parquet_Apache Drill

Python 钻孔无法读取Spark生成的拼花地板中的大多数列

python apache-spark

Python 钻孔无法读取Spark生成的拼花地板中的大多数列,python,apache-spark,hdfs,parquet,apache-drill,Python,Apache Spark,Hdfs,Parquet,Apache Drill,我在分布式模式下仅在datanodes上运行Drill 1.15（3个节点，每个节点有32GB内存）。我正在尝试读取HDFs中Spark作业生成的拼花文件生成的文件正在spark中读取，很好，但在Drill中读取时，除了少数列之外，它似乎对其他列不起作用 org.apache.drill.common.exceptions.UserRemoteException:数据读取错误：从磁盘读取时发生异常。文件： [文件名].拼花地板列：行组开始：111831文件： [文件名].拼花地板列：行

我在分布式模式下仅在datanodes上运行Drill 1.15（3个节点，每个节点有32GB内存）。我正在尝试读取HDFs中Spark作业生成的拼花文件

生成的文件正在spark中读取，很好，但在Drill中读取时，除了少数列之外，它似乎对其他列不起作用

org.apache.drill.common.exceptions.UserRemoteException:数据读取错误：从磁盘读取时发生异常。文件： [文件名].拼花地板列：行组开始：111831文件： [文件名].拼花地板列：行组开始：111831片段0:0[错误Id: [主机]：31010上的[错误id]

在dfs的钻孔配置中，我有拼花地板格式的默认配置

我正在尝试运行一个简单的查询：

select * from dfs.`/hdfs/path/to/parquet/file.parquet`

文件大小，如果也在10秒的MBs不是很多

我使用Spark 2.3版本生成带有1.15版本Drill的拼花地板文件

是否缺少任何配置或其他点？

看起来像个bug。
请创建票证并提供file.parquet和日志文件。

谢谢

这是一个有趣的问题，但除非您能提供一个@user10465355，否则没有那么大的价值。我已经添加了查询示例和节点信息。是否有任何其他具体的细节，你正在寻找？我绝对可以提供给你that@Vitalli谢谢你的回复。由于数据限制，我无法提供精确的拼花地板，但我可以尝试在另一个文件中复制相同的拼花地板。