分析分布式tensorflow的推荐方法_Tensorflow_Tensorflow Serving_Tensorflow Datasets_Tensorflow Estimator

分析分布式tensorflow的推荐方法

tensorflow

分析分布式tensorflow的推荐方法,tensorflow,tensorflow-serving,tensorflow-datasets,tensorflow-estimator,Tensorflow,Tensorflow Serving,Tensorflow Datasets,Tensorflow Estimator,目前，我正在使用tensorflow估计器API来训练我的tf模型。我使用的是分布式培训，根据培训数据大小，大约有20-50名员工和5-30个参数服务器。因为我没有访问会话的权限，所以我无法使用带有完整跟踪的run metadata a=查看chrome跟踪。我认为还有两种方法： 1） (二) 我特别使用 tf.估计器.训练和评估（估计器，训练规格，测试规格）其中，我的估计器是一个预构建的估计器有人能给我一些指导吗（具体的代码示例和代码指针将非常有用，因为我对tensorflow非常陌生）

目前，我正在使用tensorflow估计器API来训练我的tf模型。我使用的是分布式培训，根据培训数据大小，大约有20-50名员工和5-30个参数服务器。因为我没有访问会话的权限，所以我无法使用带有完整跟踪的run metadata a=查看chrome跟踪。我认为还有两种方法：

1）
(二)

我特别使用

tf.估计器.训练和评估（估计器，训练规格，测试规格）

其中，我的估计器是一个预构建的估计器

有人能给我一些指导吗（具体的代码示例和代码指针将非常有用，因为我对tensorflow非常陌生），推荐使用什么方法来评测估计器？这两种方法是获得不同的信息还是达到相同的目的？是否推荐一种而不是另一种？

您可以尝试两种方法：

ProfilerContext

用法示例：

with tf.contrib.tfprof.ProfileContext('/tmp/train_dir') as pctx:
  train_loop()

档案服务

您可以通过

tf.python.eager.profiler.start\u profiler\u server（端口）

在所有辅助服务器和参数服务器上启动ProfilerServer。并使用张力板捕捉轮廓

请注意，这是一项非常新的功能，您可能希望每晚使用

tf

Tensorflow

最近添加了一种方法来

采样多个工作人员

请看一下API：

上述

API

的参数在此上下文中很重要，它是：

服务地址

：以逗号分隔的工人的个人资料。e、 g.服务地址：grpc://localhost:6009' 服务地址：grpc://10.0.0.2:8466,grpc://10.0.0.3:8466' 服务地址：grpc://localhost:12345,grpc://localhost:23456"

另外，请看API，

上述

API

的参数在此上下文中很重要，它是：

delay\u ms

：请求所有主机以时间戳启动

评测

即从当前时间开始的

延迟\u ms

<代码>延迟\u ms处于毫秒。如果为零，则每个主机将在收到请求。默认值为“无”，允许使用

探查器

猜测最佳值