如何在hadoop mapreduce中过滤任何柱状拼花地板

如何在hadoop mapreduce中过滤任何柱状拼花地板,mapreduce,hadoop2,parquet,Mapreduce,Hadoop2,Parquet,我以拼花格式存储hdfs中的数据。 我写mapred来成功运行这个数据,我想过滤map中的任何column输入 如何在hadoop mapreduce中过滤任何column拼花您应该在mr作业配置中设置parquet.read.schema proerty,指定包含所需列的架构字符串作为文件拼花架构的投影。 当然,请使用ExampleInputFormat.class 这个问题困扰了我很长时间,直到我阅读了源代码ParquetInputFormat.java groupreadsupport.j

我以拼花格式存储hdfs中的数据。 我写mapred来成功运行这个数据,我想过滤map中的任何column输入

如何在hadoop mapreduce中过滤任何column拼花

您应该在mr作业配置中设置parquet.read.schema proerty,指定包含所需列的架构字符串作为文件拼花架构的投影。 当然,请使用ExampleInputFormat.class

这个问题困扰了我很长时间,直到我阅读了源代码ParquetInputFormat.java groupreadsupport.java等等