Apache spark 连接具有复杂条件的spark数据集

Apache spark 连接具有复杂条件的spark数据集,apache-spark,join,apache-spark-sql,apache-spark-dataset,Apache Spark,Join,Apache Spark Sql,Apache Spark Dataset,考虑一个bean,如下所示: class Bean { String id; String joinColumn; } 我有两个这个Bean的数据集,需要在joinColumn上连接它们,但是连接的条件不等于 我需要一个比较joinColumn是否相等的逻辑,如果不相等,则根据某些条件修改字符串并检查相等性。应该如何使用dataset API来完成 Do左连接-成功连接的元素将具有来自两个DSs的数据。其他将具有空值 存储成功加入的数据 从1的输出中筛选出成功连接的元素 根据输出3的条

考虑一个bean,如下所示:

class Bean {
  String id;
  String joinColumn;
}
我有两个这个Bean的数据集,需要在joinColumn上连接它们,但是连接的条件不等于

我需要一个比较joinColumn是否相等的逻辑,如果不相等,则根据某些条件修改字符串并检查相等性。应该如何使用dataset API来完成

  • Do
    左连接
    -成功连接的元素将具有来自两个DSs的数据。其他将具有空值
  • 存储成功加入的数据
  • 从1的输出中筛选出成功连接的元素
  • 根据输出3的条件修改字符串
  • 使用4的输出进行连接
  • 联合
    5和2的输出
  • 如果能够提供