Apache spark 连接后处理Spark中的不良记录
Spark中是否有处理不良记录的工具,即左连接后为Apache spark 连接后处理Spark中的不良记录,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,Spark中是否有处理不良记录的工具,即左连接后为null,或未正确连接的记录 如果有类似但专门用于检查联接后的数据质量的功能,那就太好了。没有,您对数据块的引用与您所指的左联接(不正确,无论这意味着什么)情况不同。我想你的意思至少也是外接,这是故意的 您可以删除带有null的行,用其他值替换null,或者将所有带有null的行放在它自己的数据帧中,以执行任何您想要的操作。这就是你想要的吗?这显然是游戏的一部分。但在spark中没有像死信队列这样的概念吗?例如,上面的databricks链接自动
null
,或未正确连接的记录
如果有类似但专门用于检查联接后的数据质量的功能,那就太好了。没有,您对数据块的引用与您所指的左联接(不正确,无论这意味着什么)情况不同。我想你的意思至少也是外接,这是故意的 您可以删除带有null的行,用其他值替换null,或者将所有带有null的行放在它自己的数据帧中,以执行任何您想要的操作。这就是你想要的吗?这显然是游戏的一部分。但在spark中没有像死信队列这样的概念吗?例如,上面的databricks链接自动包含异常文件名和一些关于问题的进一步元数据,而且它们似乎可以处理运行中的错误,不需要第二次传递数据来写入错误。不过,连接后的null并不完全是错误,这完全取决于您的用例。在databricks链接中,不符合提供的架构的记录被写入到一个有点不同的指定文件中。令人遗憾的是,在这个生态系统中,一些重复的插入根本没有被拾取