Scala如何匹配两个df if mathes然后更新第一个df中的键并从所需df中选择所有列_Scala_Apache Spark

Scala如何匹配两个df if mathes然后更新第一个df中的键并从所需df中选择所有列

scala apache-spark

Scala如何匹配两个df if mathes然后更新第一个df中的键并从所需df中选择所有列,scala,apache-spark,Scala,Apache Spark,我有两个数据帧中的数据：选定人员f： ID key Name 1 lak 2 Mouny 3 kkk 4 nnn 5 hhh 已选择的细节SDF： first second third key -------------------------- 1 9 9 777 9 8 8 878 8 10 10

我有两个数据帧中的数据：

选定人员f：

ID    key  Name
1          lak
2          Mouny   
3          kkk
4          nnn
5          hhh

已选择的细节SDF：

first  second third  key
--------------------------
1       9       9    777
9       8       8    878
8       10      10   765
10      12      19   909
11      2       20   708

val columnsToCheck = selectedDetailsDF.columns.toSet - "key" toList

import org.apache.spark.sql.functions._
val tempSelectedDetailsDF = selectedDetailsDF.select(array(columnsToCheck.map(col): _*).as("array"), col("key").as("key2"))



val arrayContains = udf((array: collection.mutable.WrappedArray[String], value: String) => array.contains(value))

val finalDF = selectedPersonDF.join(tempSelectedDetailsDF, arrayContains($"array", $"ID"), "left")
  .select($"ID", $"key2".as("key"))
  .na.fill("")

得到如下输出：

+---+---+
|ID |key|
+---+---+
|1  |777|
|2  |708|
|3  |   |
|4  |   |
|5  |   |
+---+---+

期望：我想显示selectedPersonDF中的所有列我必须将selectedPersonDF id列与selectedDetailsDF所有列（第一、第二、第三）匹配如果任何列数据与Person id匹配，那么我们必须从selectedDetailsDF中获取键值，并在selectedPersonDF key列中更新

ID    key  Name
1     777  lak
2     708  Mouny   
3          kkk
4          nnn
5          hhh

任何人都请帮助我。

也只需选择

Name

列即可

val finalDF = selectedPersonDF.join(tempSelectedDetailsDF, arrayContains($"array", $"ID"), "left")
  .select($"ID", $"key", $"Name")
  .na.fill("")

你应该没事的

如果在

selectedPersonDF

中有更多列，并且您希望

将它们全部选择为
val columnsToSelect = selectedPersonDF.columns
val finalDF = selectedPersonDF.join(tempSelectedDetailsDF, arrayContains($"array", $"ID"), "left")
  .select(columnToSelect.map(col): _*)
  .na.fill("")

我建议您使用有助于优化的内置函数，而不是使用UDF

您可以使用多个键的组合进行连接，并获得如下结果
  val joinCondition = df1("ID") === selectedDetailsDF("A") ||
    df1("ID") === selectedDetailsDF("B") ||
    df1("ID") === selectedDetailsDF("C")

  val df2 = df1.drop("key")
    .join(selectedDetailsDF, joinCondition, "left")
    .drop("A", "B", "c")
    .withColumnRenamed("D", "key")
    .na.fill("")

我希望这比使用udf更优化。我希望这能对您有所帮助。
我尝试了第一个，它正在工作，但我有更多的列来选择它们，所以我选择了第二个，我发现错误“key”不明确，可能是：key#1，key#104。；我已经更新了答案，请检查：）这是因为您使用alias时重复了键
列。现在应该可以了