Apache spark 非常慢的Spark Phoenix集成

Apache spark 非常慢的Spark Phoenix集成,apache-spark,pyspark,phoenix,Apache Spark,Pyspark,Phoenix,我使用spark phoenix集成将数据帧中的数据加载到phoenix表中。不幸的是,这是可笑的缓慢-推动23行25列每7-8秒。这是两个执行器,每个执行器有两个内核,这意味着它的速度实际上是两倍。这使得它在我的例子中无法使用,因为它计划在流式应用程序中使用-在15秒的窗口中丢弃的记录数最多需要一分钟才能加载 当我查看Spark History Server时,我看到两件非常奇怪的事情: 到目前为止,最慢的部分是“DataFrameFunctions.scala:55处的saveAsNewA

我使用spark phoenix集成将数据帧中的数据加载到phoenix表中。不幸的是,这是可笑的缓慢-推动23行25列每7-8秒。这是两个执行器,每个执行器有两个内核,这意味着它的速度实际上是两倍。这使得它在我的例子中无法使用,因为它计划在流式应用程序中使用-在15秒的窗口中丢弃的记录数最多需要一分钟才能加载

当我查看Spark History Server时,我看到两件非常奇怪的事情:

  • 到目前为止,最慢的部分是“DataFrameFunctions.scala:55处的saveAsNewAPIHadoopFile”,因此问题不在我的代码中
  • 对于23行,将启动200个任务。这似乎太过分了
有没有人对我如何提高这些加载速度有经验?理想情况下,我希望以某种方式继续使用Phoenix,因为我们在表上有二级索引