分析分布式tensorflow的推荐方法

分析分布式tensorflow的推荐方法,tensorflow,tensorflow-serving,tensorflow-datasets,tensorflow-estimator,Tensorflow,Tensorflow Serving,Tensorflow Datasets,Tensorflow Estimator,目前,我正在使用tensorflow估计器API来训练我的tf模型。我使用的是分布式培训,根据培训数据大小,大约有20-50名员工和5-30个参数服务器。因为我没有访问会话的权限,所以我无法使用带有完整跟踪的run metadata a=查看chrome跟踪。我认为还有两种方法: 1) (二) 我特别使用 tf.估计器.训练和评估(估计器,训练规格,测试规格) 其中,我的估计器是一个预构建的估计器 有人能给我一些指导吗(具体的代码示例和代码指针将非常有用,因为我对tensorflow非常陌生)

目前,我正在使用tensorflow估计器API来训练我的tf模型。我使用的是分布式培训,根据培训数据大小,大约有20-50名员工和5-30个参数服务器。因为我没有访问会话的权限,所以我无法使用带有完整跟踪的run metadata a=查看chrome跟踪。我认为还有两种方法:

1)
(二)

我特别使用
tf.估计器.训练和评估(估计器,训练规格,测试规格)

其中,我的估计器是一个预构建的估计器


有人能给我一些指导吗(具体的代码示例和代码指针将非常有用,因为我对tensorflow非常陌生),推荐使用什么方法来评测估计器?这两种方法是获得不同的信息还是达到相同的目的?是否推荐一种而不是另一种?

您可以尝试两种方法:

ProfilerContext

用法示例:

with tf.contrib.tfprof.ProfileContext('/tmp/train_dir') as pctx:
  train_loop()
档案服务

您可以通过
tf.python.eager.profiler.start\u profiler\u server(端口)
在所有辅助服务器和参数服务器上启动ProfilerServer。并使用张力板捕捉轮廓


请注意,这是一项非常新的功能,您可能希望每晚使用
tf

Tensorflow
最近添加了一种方法来
采样多个工作人员

请看一下API:

上述
API
的参数在此上下文中很重要,它是:

服务地址
:以逗号分隔的 工人的个人资料。e、 g.服务地址:grpc://localhost:6009' 服务地址:grpc://10.0.0.2:8466,grpc://10.0.0.3:8466' 服务地址:grpc://localhost:12345,grpc://localhost:23456"

另外,请看API,

上述
API
的参数在此上下文中很重要,它是:

delay\u ms
:请求所有主机以时间戳启动
评测
即从当前时间开始的
延迟\u ms
<代码>延迟\u ms处于 毫秒。如果为零,则每个主机将在 收到请求。默认值为“无”,允许使用
探查器
猜测最佳值