Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在GCPDataproc中,集群中可以使用的最大工作节点数是多少?_Apache Spark_Google Cloud Platform_Distributed Computing_Distributed_Google Cloud Dataproc - Fatal编程技术网

Apache spark 在GCPDataproc中,集群中可以使用的最大工作节点数是多少?

Apache spark 在GCPDataproc中,集群中可以使用的最大工作节点数是多少?,apache-spark,google-cloud-platform,distributed-computing,distributed,google-cloud-dataproc,Apache Spark,Google Cloud Platform,Distributed Computing,Distributed,Google Cloud Dataproc,我将训练500万行数据,其中包含7个分类变量(字符串),但很快将训练3100万行数据。 我想知道一个集群中可以使用的最大工作节点数是多少,因为即使我键入:2000000这样的值,它也不会显示任何错误迹象 另一个问题是,确定需要多少工作节点的最佳方法是什么 提前谢谢你 最大群集大小 Dataproc不限制集群中节点的数量,但其他软件可能有限制。例如,众所周知,有些纱线集群部署具有10k节点,因此,对于Dataproc运行的纱线上的Spark,上述情况可能不起作用 此外,您还需要考虑GCE限制,如不

我将训练500万行数据,其中包含7个分类变量(字符串),但很快将训练3100万行数据。 我想知道一个集群中可以使用的最大工作节点数是多少,因为即使我键入:2000000这样的值,它也不会显示任何错误迹象

另一个问题是,确定需要多少工作节点的最佳方法是什么

提前谢谢你

最大群集大小 Dataproc不限制集群中节点的数量,但其他软件可能有限制。例如,众所周知,有些纱线集群部署具有10k节点,因此,对于Dataproc运行的纱线上的Spark,上述情况可能不起作用

此外,您还需要考虑GCE限制,如不同的配额(CPU、RAM、磁盘、外部IP等)和QPS限制,并确保有足够的配额用于如此大的集群

我认为1k节点对于大型Dataproc集群来说是一个合理的开始大小,如果您需要的话,您可以进一步扩展它,以便在创建集群后根据需要添加更多节点

簇大小估计 您应该根据要使用的工作负载和VM大小确定需要多少节点。对于您的用例,您似乎需要找到一个关于如何估计ML培训的集群大小的指南

或者,您也可以只进行二进制搜索,直到您对培训时间感到满意为止。例如,您可以从500个8核节点群集开始,如果培训时间过长,则将群集大小增加到600-750个节点,并查看培训时间是否如您所期望的那样减少-您可以重复此操作,直到您对培训时间感到满意或不再扩展/改进