在scala中连接多个数据帧

在scala中连接多个数据帧,scala,dataframe,left-join,foldleft,Scala,Dataframe,Left Join,Foldleft,我有两个变量。一个是数据帧,另一个是列表[数据帧]。我想对这些进行连接。目前,我使用以下方法: def joinDfList(SingleDataFrame: DataFrame, DataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = { var joinedDf = SingleDataFrame DataFrameList.foreach( Df => {

我有两个变量。一个是数据帧,另一个是列表[数据帧]。我想对这些进行连接。目前,我使用以下方法:

def joinDfList(SingleDataFrame: DataFrame, DataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = {

    var joinedDf = SingleDataFrame
    DataFrameList.foreach(
      Df => {
        joinedDf = joinedDf.join(Df, groupByCols, "left_outer")
      }
    )
    joinedDf.na.fill(0.0)
}

有没有一种方法可以让我们跳过“var”的使用,而不是“foreach”使用“foldleft”?

您可以使用
foldleft来简单地编写它,而不使用vars:

def joinDfList(singleDataFrame: DataFrame, dataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = 
  dataFrameList.foldLeft(singleDataFrame)(
    (dfAcc, nextDF) => dfAcc.join(nextDF, groupByCols, "left_outer")
  ).na.fill(0.0)
在此代码中,
dfAcc
将始终与来自
dataFrameList
的新
DataFrame
连接,最后您将得到一个
DataFrame


重要请小心,在一个作业中使用太多联接可能会导致性能下降。

确实有,但为什么不先自己尝试一下呢
foldLeft
对一个列表进行操作,并获取一个数据帧来实现滚动,以及一个从两个数据帧生成另一个数据帧的函数。所有这些都在这里。此外,变量名应该以小写字符开头,因为这样可以更容易地将它们与类型(以及单例
对象
s)区分开来。为什么我们在这里使用case@Boris@Keshvi斯利瓦斯塔瓦在这里不是强制性的