当(Azure)databricks运行时版本更改时,Pypark连接失败

当(Azure)databricks运行时版本更改时,Pypark连接失败,azure,pyspark,azure-databricks,Azure,Pyspark,Azure Databricks,我有一个databricks笔记本,其中一个单元格中有许多连接 伪代码: df_final = df_final.join(dfTest1, on ['ID], how = 'left').drop(dfTest1.ID) \ .join(dfTest2, on ['ID], how = 'left').drop(dfTest2.ID) \ .join(dfTest3, on ['ID], how = 'left').d

我有一个databricks笔记本,其中一个单元格中有许多连接

伪代码:

df_final = df_final.join(dfTest1, on ['ID], how = 'left').drop(dfTest1.ID) \
                   .join(dfTest2, on ['ID], how = 'left').drop(dfTest2.ID) \
                   .join(dfTest3, on ['ID], how = 'left').drop(dfTest3.ID) 
同一命令在6.6ML(包括Spark 2.4.5、scala 2.11)中成功运行,但在运行时版本7.3 LTS ML(包括Apache Spark 3.0.1、scala 2.12)中失败


有人面临这个问题吗?如何克服这个问题?谢谢。

你说失败是什么意思?您遇到了什么错误?第3行出现故障,表示“ID”无法解决。请您发布一个复制此错误的最小代码,根据您在此处显示的内容,我不明白为什么会发生这种情况谢谢@mck。当我从所有3行中删除.drop(dfTest*.ID)时,错误消失了。看起来这是运行时版本的问题。对于早期版本,未显示任何错误。此外,我们不必删除在两个pyspark数据帧之间发生连接的列。这是一个bug。可能是您的数据有问题,第三个df中似乎不存在
ID