Apache spark 连接具有复杂条件的spark数据集
考虑一个bean,如下所示:Apache spark 连接具有复杂条件的spark数据集,apache-spark,join,apache-spark-sql,apache-spark-dataset,Apache Spark,Join,Apache Spark Sql,Apache Spark Dataset,考虑一个bean,如下所示: class Bean { String id; String joinColumn; } 我有两个这个Bean的数据集,需要在joinColumn上连接它们,但是连接的条件不等于 我需要一个比较joinColumn是否相等的逻辑,如果不相等,则根据某些条件修改字符串并检查相等性。应该如何使用dataset API来完成 Do左连接-成功连接的元素将具有来自两个DSs的数据。其他将具有空值 存储成功加入的数据 从1的输出中筛选出成功连接的元素 根据输出3的条
class Bean {
String id;
String joinColumn;
}
我有两个这个Bean的数据集,需要在joinColumn上连接它们,但是连接的条件不等于
我需要一个比较joinColumn是否相等的逻辑,如果不相等,则根据某些条件修改字符串并检查相等性。应该如何使用dataset API来完成
左连接
-成功连接的元素将具有来自两个DSs的数据。其他将具有空值联合
5和2的输出