Join Spark接头不在Spark中工作>;2.4当联接列名相同时
我们最近将Spark从v.2.1升级到v.2.4 以前工作的代码如下所示:Join Spark接头不在Spark中工作>;2.4当联接列名相同时,join,apache-spark-sql,cloudera-cdh,Join,Apache Spark Sql,Cloudera Cdh,我们最近将Spark从v.2.1升级到v.2.4 以前工作的代码如下所示: final\u df=spark.sql(“在a.cust\u id=b.cust\u id上从df\u 1a中选择a.*,b.*加入df\u 2b”) 升级后,同一查询输出有0条记录。我试着调试了很多次,但不明白为什么这样一个简单的连接失败了,而这在以前是有效的 最后,当我更改其中一个表的cust_id列的别名时,它起了作用(df_2的cust_id-->cust_id_2): final\u df=spark.sql
final\u df=spark.sql(“在a.cust\u id=b.cust\u id上从df\u 1a中选择a.*,b.*加入df\u 2b”)
升级后,同一查询输出有0条记录。我试着调试了很多次,但不明白为什么这样一个简单的连接失败了,而这在以前是有效的
最后,当我更改其中一个表的cust_id列的别名时,它起了作用(df_2的cust_id-->cust_id_2):
final\u df=spark.sql(“在a.cust\u id=b.cust\u id\u 2上从df\u 1中选择a.*,b.*”)
我觉得这是非常奇怪的行为,在升级开源项目时,应该始终检查向后兼容性
需要有关此主题的评论/建议。