MapReduce作业，用于收集JSON的HDFS目录中的所有唯一字段_Json_Hadoop_Mapreduce_Avro_Parquet

MapReduce作业，用于收集JSON的HDFS目录中的所有唯一字段

json hadoop mapreduce

MapReduce作业，用于收集JSON的HDFS目录中的所有唯一字段,json,hadoop,mapreduce,avro,parquet,Json,Hadoop,Mapreduce,Avro,Parquet,我的问题实质上是这个参考问题的应用：我发现自己处于一个相当独特的位置，必须半手动地为HDFS目录中JSON文件（由已知资源的任意组合组成）中包含的字段超集创建Avro模式这是我试图开发的ETL管道的一部分，用于将这些文件转换为拼花地板，以便在Spark中进行更高效/更简单的处理。我以前从未编写过MapReduce程序，所以我从零开始。如果有人以前遇到过此类问题，我将非常感谢您的任何见解。谢谢

我的问题实质上是这个参考问题的应用：

我发现自己处于一个相当独特的位置，必须半手动地为HDFS目录中JSON文件（由已知资源的任意组合组成）中包含的字段超集创建Avro模式

这是我试图开发的ETL管道的一部分，用于将这些文件转换为拼花地板，以便在Spark中进行更高效/更简单的处理。我以前从未编写过MapReduce程序，所以我从零开始。如果有人以前遇到过此类问题，我将非常感谢您的任何见解。谢谢