ApacheSpark从嵌套的任意JSON文件中获取所有字段名

ApacheSpark从嵌套的任意JSON文件中获取所有字段名,json,hadoop,apache-spark,avro,parquet,Json,Hadoop,Apache Spark,Avro,Parquet,我遇到了一个困扰了我几个月的有点困惑的问题。我正在尝试创建一个Avro模式(基本上,据我所知,是用于序列化任意数据的模式强制格式),以将一些复杂的JSON文件(任意和嵌套)最终转换为管道中的拼花 我想知道是否有一种方法可以让这个用例所需的字段名超集以合理的方式保留在apachespark而不是Hadoop MR中 我认为正在开发中的ApacheArrow最终将JSON作为一级公民来对待,可能有助于避免这种情况,但它还没有实现 任何指导都将不胜感激 对于复杂的JSON文件定义“任意”。@David

我遇到了一个困扰了我几个月的有点困惑的问题。我正在尝试创建一个Avro模式(基本上,据我所知,是用于序列化任意数据的模式强制格式),以将一些复杂的JSON文件(任意和嵌套)最终转换为管道中的拼花

我想知道是否有一种方法可以让这个用例所需的字段名超集以合理的方式保留在apachespark而不是Hadoop MR中

我认为正在开发中的ApacheArrow最终将JSON作为一级公民来对待,可能有助于避免这种情况,但它还没有实现


任何指导都将不胜感激

对于复杂的JSON文件定义“任意”。@DavidGriffin当然可以,谢谢您的询问。单个JSON文件包含已知对象资源上的任意组合,这些对象资源也是嵌套的。我希望这会有所帮助,如果需要,可以提供更多的细节