Apache spark 非常慢的Spark Phoenix集成_Apache Spark_Pyspark_Phoenix

Apache spark 非常慢的Spark Phoenix集成

apache-spark pyspark

Apache spark 非常慢的Spark Phoenix集成,apache-spark,pyspark,phoenix,Apache Spark,Pyspark,Phoenix,我使用spark phoenix集成将数据帧中的数据加载到phoenix表中。不幸的是，这是可笑的缓慢-推动23行25列每7-8秒。这是两个执行器，每个执行器有两个内核，这意味着它的速度实际上是两倍。这使得它在我的例子中无法使用，因为它计划在流式应用程序中使用-在15秒的窗口中丢弃的记录数最多需要一分钟才能加载当我查看Spark History Server时，我看到两件非常奇怪的事情：到目前为止，最慢的部分是“DataFrameFunctions.scala:55处的saveAsNewA

我使用spark phoenix集成将数据帧中的数据加载到phoenix表中。不幸的是，这是可笑的缓慢-推动23行25列每7-8秒。这是两个执行器，每个执行器有两个内核，这意味着它的速度实际上是两倍。这使得它在我的例子中无法使用，因为它计划在流式应用程序中使用-在15秒的窗口中丢弃的记录数最多需要一分钟才能加载

当我查看Spark History Server时，我看到两件非常奇怪的事情：

到目前为止，最慢的部分是“DataFrameFunctions.scala:55处的saveAsNewAPIHadoopFile”，因此问题不在我的代码中
对于23行，将启动200个任务。这似乎太过分了

有没有人对我如何提高这些加载速度有经验？理想情况下，我希望以某种方式继续使用Phoenix，因为我们在表上有二级索引