Pyspark 使用SQL从两个数据帧提取数据时出错

Pyspark 使用SQL从两个数据帧提取数据时出错,pyspark,apache-zeppelin,Pyspark,Apache Zeppelin,我试图通过在pyspark中连接两个表来提取数据。我的联接查询如下所示: SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date 它抛出了一个错误: 错误:Py4JJavaError:调用时出错 z:org.apache.zeppeli

我试图通过在pyspark中连接两个表来提取数据。我的联接查询如下所示:

SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date
它抛出了一个错误:

错误:Py4JJavaError:调用时出错 z:org.apache.zeppelin.spark.ZeppelinContext.showDF

但是,当我尝试从每个表中提取数据时,效果很好。我对单个表的查询如下

SELECT to_date(date) FROM extractalpha_cam2
SELECT date from TOP1000
这两个查询工作正常。有人能帮我通过连接从两个表中提取数据吗


如果有人可以共享任何此类链接,这将非常有帮助,可以指导我在pyspark中编写高效的查询。

我检查发现,当您正在运行的作业花费的时间超过您设置的超时时间时,会出现此错误。就我而言,这是300秒

如果有人有比这个更有价值的答案,请告诉我。谢谢