Join Spark接头不在Spark中工作>;2.4当联接列名相同时

Join Spark接头不在Spark中工作>;2.4当联接列名相同时,join,apache-spark-sql,cloudera-cdh,Join,Apache Spark Sql,Cloudera Cdh,我们最近将Spark从v.2.1升级到v.2.4 以前工作的代码如下所示: final\u df=spark.sql(“在a.cust\u id=b.cust\u id上从df\u 1a中选择a.*,b.*加入df\u 2b”) 升级后,同一查询输出有0条记录。我试着调试了很多次,但不明白为什么这样一个简单的连接失败了,而这在以前是有效的 最后,当我更改其中一个表的cust_id列的别名时,它起了作用(df_2的cust_id-->cust_id_2): final\u df=spark.sql

我们最近将Spark从v.2.1升级到v.2.4

以前工作的代码如下所示:

final\u df=spark.sql(“在a.cust\u id=b.cust\u id上从df\u 1a中选择a.*,b.*加入df\u 2b”)

升级后,同一查询输出有0条记录。我试着调试了很多次,但不明白为什么这样一个简单的连接失败了,而这在以前是有效的

最后,当我更改其中一个表的cust_id列的别名时,它起了作用(df_2的cust_id-->cust_id_2):

final\u df=spark.sql(“在a.cust\u id=b.cust\u id\u 2上从df\u 1中选择a.*,b.*”)

我觉得这是非常奇怪的行为,在升级开源项目时,应该始终检查向后兼容性

需要有关此主题的评论/建议。