Apache spark Databricks REST API节流和容量限制/限制_Apache Spark_Databricks_Azure Databricks

Apache spark Databricks REST API节流和容量限制/限制

apache-spark

Apache spark Databricks REST API节流和容量限制/限制,apache-spark,databricks,azure-databricks,Apache Spark,Databricks,Azure Databricks,我已经适当地扩展了azure databricks集群（“通用”集群）上的硬件，以便它能够处理大量的工作。该应用程序的设计方式是将传入的数据处理成小的、离散的块。作业运行时间约为20到30秒。但是有大量并发作业需要同时执行（例如，0到50个并发作业）将作业交付到集群的唯一方法似乎是通过azure databricks中的RESTAPI（doc:）在并发作业数达到10个左右之前，所有作业都会正常运行。在这一点上，我看到吞吐量出现了不合理的恶化。但如果我检查ganglia或自定义遥测，似乎没有任

我已经适当地扩展了azure databricks集群（“通用”集群）上的硬件，以便它能够处理大量的工作。该应用程序的设计方式是将传入的数据处理成小的、离散的块。作业运行时间约为20到30秒。但是有大量并发作业需要同时执行（例如，0到50个并发作业）

将作业交付到集群的唯一方法似乎是通过azure databricks中的RESTAPI（doc:）

在并发作业数达到10个左右之前，所有作业都会正常运行。在这一点上，我看到吞吐量出现了不合理的恶化。但如果我检查ganglia或自定义遥测，似乎没有任何原因导致性能恶化

我的怀疑是RESTAPI本身引入了一个人为瓶颈，它们限制了我可以发送到集群的作业数量。这对我来说不是不言而喻的。如果我为一个大型集群付费，我应该被允许向它发送工作。RESTAPI似乎只是充当一个通信通道，允许我将请求传输到集群。该API是我最不希望发现资源瓶颈的地方。Spark开发人员自然会研究他们的代码，然后是集群硬件。RESTAPI并不是Databricks引入一些额外的秘密限制的合理场所

有人知道不通过RESTAPI将不同作业传输到集群的另一种方法吗？集群中的驱动程序节点有没有一种方法可以产生额外的/独特的/一流的作业，而不需要计入我们的RESTAPI余量

这个问题似乎愚蠢而人为。这些限制的秘密性质也让我感到困扰。如果他们正在限制RESTAPI，那么应该有一个警告、错误或ganglia图表。否则，开发人员将使用试错和猜测来解决性能问题

感谢您的帮助。我不想一直回到绘图板上，因为RESTAPI中存在人为限制（可能是为了保护动力不足的“控制平面”）