当（Azure）databricks运行时版本更改时，Pypark连接失败_Azure_Pyspark_Azure Databricks

当（Azure）databricks运行时版本更改时，Pypark连接失败

azure pyspark

当（Azure）databricks运行时版本更改时，Pypark连接失败,azure,pyspark,azure-databricks,Azure,Pyspark,Azure Databricks,我有一个databricks笔记本，其中一个单元格中有许多连接伪代码： df_final = df_final.join(dfTest1, on ['ID], how = 'left').drop(dfTest1.ID) \ .join(dfTest2, on ['ID], how = 'left').drop(dfTest2.ID) \ .join(dfTest3, on ['ID], how = 'left').d

我有一个databricks笔记本，其中一个单元格中有许多连接

伪代码：

df_final = df_final.join(dfTest1, on ['ID], how = 'left').drop(dfTest1.ID) \
                   .join(dfTest2, on ['ID], how = 'left').drop(dfTest2.ID) \
                   .join(dfTest3, on ['ID], how = 'left').drop(dfTest3.ID)

同一命令在6.6ML（包括Spark 2.4.5、scala 2.11）中成功运行，但在运行时版本7.3 LTS ML（包括Apache Spark 3.0.1、scala 2.12）中失败

有人面临这个问题吗？如何克服这个问题？谢谢。

你说失败是什么意思？您遇到了什么错误？第3行出现故障，表示“ID”无法解决。请您发布一个复制此错误的最小代码，根据您在此处显示的内容，我不明白为什么会发生这种情况谢谢@mck。当我从所有3行中删除.drop（dfTest*.ID）时，错误消失了。看起来这是运行时版本的问题。对于早期版本，未显示任何错误。此外，我们不必删除在两个pyspark数据帧之间发生连接的列。这是一个bug。可能是您的数据有问题，第三个df中似乎不存在

ID

。