Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/json/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
MapReduce作业,用于收集JSON的HDFS目录中的所有唯一字段_Json_Hadoop_Mapreduce_Avro_Parquet - Fatal编程技术网

MapReduce作业,用于收集JSON的HDFS目录中的所有唯一字段

MapReduce作业,用于收集JSON的HDFS目录中的所有唯一字段,json,hadoop,mapreduce,avro,parquet,Json,Hadoop,Mapreduce,Avro,Parquet,我的问题实质上是这个参考问题的应用: 我发现自己处于一个相当独特的位置,必须半手动地为HDFS目录中JSON文件(由已知资源的任意组合组成)中包含的字段超集创建Avro模式 这是我试图开发的ETL管道的一部分,用于将这些文件转换为拼花地板,以便在Spark中进行更高效/更简单的处理。我以前从未编写过MapReduce程序,所以我从零开始。如果有人以前遇到过此类问题,我将非常感谢您的任何见解。谢谢

我的问题实质上是这个参考问题的应用:

我发现自己处于一个相当独特的位置,必须半手动地为HDFS目录中JSON文件(由已知资源的任意组合组成)中包含的字段超集创建Avro模式

这是我试图开发的ETL管道的一部分,用于将这些文件转换为拼花地板,以便在Spark中进行更高效/更简单的处理。我以前从未编写过MapReduce程序,所以我从零开始。如果有人以前遇到过此类问题,我将非常感谢您的任何见解。谢谢