TensorFlow中实时生产环境的负载平衡

TensorFlow中实时生产环境的负载平衡,tensorflow,Tensorflow,让我们假设您想要一台机器,它提供推理来输入数据,并且有多个GPU卡。推断是由一个具有高GPU RAM要求的模型得出的。这些推论被同一局域网上的多台机器使用 输入数据量大,需要实时处理,因此需要在GPU卡之间进行负载平衡。使用这些推断的机器是负载平衡的,随着负载的增加,会添加更多的机器。理想情况下,您可以将GPU卡添加到单个计算机,直到达到其极限,然后再添加另一台GPU计算机 在这样的设置中,如何平衡TensorFlow推断

让我们假设您想要一台机器,它提供推理来输入数据,并且有多个GPU卡。推断是由一个具有高GPU RAM要求的模型得出的。这些推论被同一局域网上的多台机器使用

输入数据量大,需要实时处理,因此需要在GPU卡之间进行负载平衡。使用这些推断的机器是负载平衡的,随着负载的增加,会添加更多的机器。理想情况下,您可以将GPU卡添加到单个计算机,直到达到其极限,然后再添加另一台GPU计算机

在这样的设置中,如何平衡TensorFlow推断