配置单元在单个文件中拆分两个相同的JSON，并用逗号分隔_Json_Regex_Apache Spark_Hive_Hiveql

配置单元在单个文件中拆分两个相同的JSON，并用逗号分隔

json regex apache-spark hive

配置单元在单个文件中拆分两个相同的JSON，并用逗号分隔,json,regex,apache-spark,hive,hiveql,Json,Regex,Apache Spark,Hive,Hiveql,我有两个JSON，如下所示。我们的生产系统将多个JSON聚合到一个文件中，如下所示。我在这里的问题是如何将JSON拆分成一个由commai、e1和2分隔的单独文件，并从文件中删除3。1,2和3之间的差异是3没有条件ID 1---{name:string, actid: string, data:array<struct>, conditionId:string }, 2---{name:string, ac

我有两个JSON，如下所示。我们的生产系统将多个JSON聚合到一个文件中，如下所示。我在这里的问题是如何将JSON拆分成一个由commai、e1和2分隔的单独文件，并从文件中删除3。1,2和3之间的差异是3没有条件ID

 1---{name:string,
        actid: string,
        data:array<struct>,
        conditionId:string
     },
 2---{name:string,
        actid: string,
        data:array<struct>,
        conditionId:string
     },
 3---{name:string,
        actid:string,
       data:array<struct>
     }

如果您有一个文本文件，其中数据为

1--- {name:string, actid: string, data:array, conditionId:string }, 2---{name:string, actid: string, data:array, conditionId:string}, 3---{name:string, actid:string, data:array}

如果您希望将格式错误的json过滤为3，并将文件保存为有效的json文件，那么您可以在spark中使用以下代码

您应该有一个包含有效json的文件作为

{"name":"string","actid":" string","data":"array","conditionId":"string "}
{"name":"string","actid":" string","data":"array","conditionId":"string"}

@RameshMaharajan感谢您的回复是否有任何方法使其动态过滤格式错误的json，因为有3个文件发生在6-10之间对不起，没有理解您的问题。你能举个例子吗。？

{"name":"string","actid":" string","data":"array","conditionId":"string "}
{"name":"string","actid":" string","data":"array","conditionId":"string"}