Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/powerbi/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在pySpark中解析无效的JSON_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 在pySpark中解析无效的JSON

Apache spark 在pySpark中解析无效的JSON,apache-spark,pyspark,Apache Spark,Pyspark,API生成的日志的JSON格式无效。像这样的 {"name": Power Amp,Component: Power Amplifier\n1/2 Inductor \n3 Power Capacitor\n Semiconductor\n Software\TV\n wafer\n Sony Dolby, \n \n L, pin, Or Amp"} {name: Signal , Component: "1 make\n1 model, Halved \n1-1/2nd Rectifier\

API生成的日志的JSON格式无效。像这样的

{"name": Power Amp,Component: Power Amplifier\n1/2 Inductor \n3 Power Capacitor\n Semiconductor\n Software\TV\n wafer\n Sony Dolby, \n \n L, pin, Or Amp"}
{name: Signal , Component: "1 make\n1 model, Halved \n1-1/2nd Rectifier\n Diode, to \n5 microwave\n8 henry\n8 ohm"}
错误: pySpark中是否有任何内置函数允许我们处理此类场景

我正在尝试创建RDD或DataFrame

错误:第1行的分析错误

我们如何在Pyspark中处理这种损坏的JSON文件?
请分享您的想法,如果我们可以在pyspark中处理这种情况,那么查询似乎会生成冗余行。所以您必须使用distinct()函数来获取不同的行

df.distinct().write.json('filepath.json');

希望这有帮助。

是否要忽略无效的json行并读取有效的json行?还是解析无效的?@Salim:这是可能的,如果有可能解析无效的,我会同意。。。。请帮忙。。。Thanks@Salim:我使用的是pyspark而不是scala….请帮助。@Salim:或者我们如何丢弃坏记录。。。。请帮助您可以通过几种方式丢弃不良记录。这是我的答案,如果对你有效,请投票。至少需要1个good来查看数据帧,然后您可以同时看到good和bad记录。使用“忽略格式错误”选项可以完全删除所有不良记录