使用java创建的两个RDD上的Spark SQL联接
我已经创建了两个RDD,并使用java将它们持久化。我已经把罐子交给火花大师了。现在,当spark shell提示我输入查询时,我已经给出了两个RDD上的SQL语句连接条件;然后在对结果集执行collect时抛出异常 连接条件:从表_1中选择a.ID作为a.NAME=b.NAME上的连接表_2 b 异常:resultSet.collect上出现空指针异常 PS:我已经检查了resultSet.collect之前的结果集是否为null;但它仍然进入状态并抛出NPE。我使用的是spark-sql-1.1.1使用java创建的两个RDD上的Spark SQL联接,java,join,apache-spark,apache-spark-sql,Java,Join,Apache Spark,Apache Spark Sql,我已经创建了两个RDD,并使用java将它们持久化。我已经把罐子交给火花大师了。现在,当spark shell提示我输入查询时,我已经给出了两个RDD上的SQL语句连接条件;然后在对结果集执行collect时抛出异常 连接条件:从表_1中选择a.ID作为a.NAME=b.NAME上的连接表_2 b 异常:resultSet.collect上出现空指针异常 PS:我已经检查了resultSet.collect之前的结果集是否为null;但它仍然进入状态并抛出NPE。我使用的是spark-sql-1
SPARK SQL中的连接有问题吗?看起来Java SPARK API在某些连接操作上有问题。当我用scala尝试同样的操作时,它工作了。你能粘贴你的代码和NPE的堆栈跟踪吗?那不应该是连接表2作为b吗?看起来Java SPARK API在某些连接操作上有问题。它工作了当我用scala做同样的尝试时。无论如何,谢谢你的帮助。