使用java创建的两个RDD上的Spark SQL联接_Java_Join_Apache Spark_Apache Spark Sql

使用java创建的两个RDD上的Spark SQL联接

java join apache-spark

使用java创建的两个RDD上的Spark SQL联接,java,join,apache-spark,apache-spark-sql,Java,Join,Apache Spark,Apache Spark Sql,我已经创建了两个RDD，并使用java将它们持久化。我已经把罐子交给火花大师了。现在，当spark shell提示我输入查询时，我已经给出了两个RDD上的SQL语句连接条件；然后在对结果集执行collect时抛出异常连接条件：从表_1中选择a.ID作为a.NAME=b.NAME上的连接表_2 b 异常：resultSet.collect上出现空指针异常 PS：我已经检查了resultSet.collect之前的结果集是否为null；但它仍然进入状态并抛出NPE。我使用的是spark-sql-1

我已经创建了两个RDD，并使用java将它们持久化。我已经把罐子交给火花大师了。现在，当spark shell提示我输入查询时，我已经给出了两个RDD上的SQL语句连接条件；然后在对结果集执行collect时抛出异常

连接条件：从表_1中选择a.ID作为a.NAME=b.NAME上的连接表_2 b

异常：resultSet.collect上出现空指针异常

PS：我已经检查了resultSet.collect之前的结果集是否为null；但它仍然进入状态并抛出NPE。我使用的是spark-sql-1.1.1

SPARK SQL中的连接有问题吗？

看起来Java SPARK API在某些连接操作上有问题。当我用scala尝试同样的操作时，它工作了。

你能粘贴你的代码和NPE的堆栈跟踪吗？那不应该是连接表2作为b吗？看起来Java SPARK API在某些连接操作上有问题。它工作了当我用scala做同样的尝试时。无论如何，谢谢你的帮助。