Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/svg/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 连接后处理Spark中的不良记录_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark 连接后处理Spark中的不良记录

Apache spark 连接后处理Spark中的不良记录,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,Spark中是否有处理不良记录的工具,即左连接后为null,或未正确连接的记录 如果有类似但专门用于检查联接后的数据质量的功能,那就太好了。没有,您对数据块的引用与您所指的左联接(不正确,无论这意味着什么)情况不同。我想你的意思至少也是外接,这是故意的 您可以删除带有null的行,用其他值替换null,或者将所有带有null的行放在它自己的数据帧中,以执行任何您想要的操作。这就是你想要的吗?这显然是游戏的一部分。但在spark中没有像死信队列这样的概念吗?例如,上面的databricks链接自动

Spark中是否有处理不良记录的工具,即左连接后为
null
,或未正确连接的记录


如果有类似但专门用于检查联接后的数据质量的功能,那就太好了。

没有,您对数据块的引用与您所指的左联接(不正确,无论这意味着什么)情况不同。我想你的意思至少也是外接,这是故意的

您可以删除带有null的行,用其他值替换null,或者将所有带有null的行放在它自己的数据帧中,以执行任何您想要的操作。这就是你想要的吗?这显然是游戏的一部分。但在spark中没有像死信队列这样的概念吗?例如,上面的databricks链接自动包含异常文件名和一些关于问题的进一步元数据,而且它们似乎可以处理运行中的错误,不需要第二次传递数据来写入错误。不过,连接后的null并不完全是错误,这完全取决于您的用例。在databricks链接中,不符合提供的架构的记录被写入到一个有点不同的指定文件中。令人遗憾的是,在这个生态系统中,一些重复的插入根本没有被拾取