MapReduce作业,用于收集JSON的HDFS目录中的所有唯一字段
我的问题实质上是这个参考问题的应用: 我发现自己处于一个相当独特的位置,必须半手动地为HDFS目录中JSON文件(由已知资源的任意组合组成)中包含的字段超集创建Avro模式 这是我试图开发的ETL管道的一部分,用于将这些文件转换为拼花地板,以便在Spark中进行更高效/更简单的处理。我以前从未编写过MapReduce程序,所以我从零开始。如果有人以前遇到过此类问题,我将非常感谢您的任何见解。谢谢MapReduce作业,用于收集JSON的HDFS目录中的所有唯一字段,json,hadoop,mapreduce,avro,parquet,Json,Hadoop,Mapreduce,Avro,Parquet,我的问题实质上是这个参考问题的应用: 我发现自己处于一个相当独特的位置,必须半手动地为HDFS目录中JSON文件(由已知资源的任意组合组成)中包含的字段超集创建Avro模式 这是我试图开发的ETL管道的一部分,用于将这些文件转换为拼花地板,以便在Spark中进行更高效/更简单的处理。我以前从未编写过MapReduce程序,所以我从零开始。如果有人以前遇到过此类问题,我将非常感谢您的任何见解。谢谢