Google cloud platform 如何利用多个Google Cloud TPU训练单个模型_Google Cloud Platform_Google Compute Engine_Google Cloud Tpu

Google cloud platform 如何利用多个Google Cloud TPU训练单个模型

google-cloud-platform google-compute-engine

Google cloud platform 如何利用多个Google Cloud TPU训练单个模型,google-cloud-platform,google-compute-engine,google-cloud-tpu,Google Cloud Platform,Google Compute Engine,Google Cloud Tpu,我在us-central1-f地区被分配了多个谷歌云TPU。机器类型均为v2-8 我如何利用我所有的TPU来训练单个型号 us-central1-f区域，因此使用pods似乎不是解决方案。即使pod可用，我拥有的v2-8单元数量与任何pod TPU片尺寸（16、64、128、256）都不匹配，因此我无法在一个pod中全部使用它们。我相信您无法轻松做到这一点。如果您想使用多个TPU训练单个模型，则需要访问具有TPU吊舱的区域。否则，您可以做显而易见的事情：在不同的TPU上训练相同的模型，但使用不同

我在

us-central1-f

地区被分配了多个谷歌云TPU。机器类型均为

v2-8

我如何利用我所有的TPU来训练单个型号

us-central1-f

区域，因此使用pods似乎不是解决方案。即使pod可用，我拥有的v2-8单元数量与任何pod TPU片尺寸（16、64、128、256）都不匹配，因此我无法在一个pod中全部使用它们。

我相信您无法轻松做到这一点。如果您想使用多个TPU训练单个模型，则需要访问具有TPU吊舱的区域。否则，您可以做显而易见的事情：在不同的TPU上训练相同的模型，但使用不同的超参数作为网格搜索的方法，或者您可以训练多个弱学习者，然后手动组合它们

虽然我找不到明确回答这个问题的文档，但我已经阅读了多篇文章和问题，并得出结论，如果您使用的是

v2-8

或

v3-8

tpu，则不可能一次使用多个。您必须使用更大的机器，如

v2-32

或

v3-32

，以确保您可以访问更多的内核，而TFRC程序不会免费提供这些

参考资料：

您无法移动到有TPU吊舱的

us-central1-a

的任何具体原因？我收到的TPU是专门为

us-central1-f

提供的。例如，如果我移动它们，我将不得不为它们的使用付费，而不是免费的。