我的TensorFlow训练很慢。如何配置配置文件以查找热点?

我的TensorFlow训练很慢。如何配置配置文件以查找热点?,tensorflow,google-cloud-ml-engine,Tensorflow,Google Cloud Ml Engine,有时作业运行缓慢,如果能够在作业运行时对其进行分析以查找热点,那就太好了。在TensorFlow中,尤其是在Google云机器学习引擎中,这一点如何降低?profilerook将输出一个可以使用Chrome可视化的跟踪 首先,在实例化实验时添加一个profilerook: from tensorflow.contrib import hooks profiler_hook = hooks.ProfilerHook(save_steps=100, output_dir=args.job_dir)

有时作业运行缓慢,如果能够在作业运行时对其进行分析以查找热点,那就太好了。在TensorFlow中,尤其是在Google云机器学习引擎中,这一点如何降低?

profilerook
将输出一个可以使用Chrome可视化的跟踪

首先,在实例化
实验
时添加一个
profilerook

from tensorflow.contrib import hooks

profiler_hook = hooks.ProfilerHook(save_steps=100, output_dir=args.job_dir)
experiment = tf.contrib.learn.Experiment(
              estimator=estimator,
              ...
              train_monitors=[profiler_hook])
接下来,正常运行作业。在作业运行时或作业完成后,将时间线复制到本地磁盘,例如

mkdir /tmp/timelines
gsutil -m cp gs://my-bucket/my-job/timeline*.json /tmp/timelines
现在,打开chrome并在地址栏中键入以下内容:
chrome://tracing

点击加载按钮,搜索要加载的特定
timeline.json
文件

在图表上寻找需要很长时间的“条形图”。单击它们以获取更多信息