Tensorflow TysFraceXLA引入了更多的CimeMcPytotoDasyCyc调用 我正在用NVPROF对TysFooSL及其XLA JIT编译做一些分析。有趣的是,XLA将引入更多的CuMcCyPytotoSycNC调用。 例如,在V100上RESNET50,在批处理=64推断下,XLA JIT平均将有5000个CuMeCyPytotoSycNC调用。该脚本可用于dl-infer-perf、nvprof-f--csv--print api summary python3-infer\u perf/to\u xla.py mobilenet--batch=64--threads=1

Tensorflow TysFraceXLA引入了更多的CimeMcPytotoDasyCyc调用 我正在用NVPROF对TysFooSL及其XLA JIT编译做一些分析。有趣的是,XLA将引入更多的CuMcCyPytotoSycNC调用。 例如,在V100上RESNET50,在批处理=64推断下,XLA JIT平均将有5000个CuMeCyPytotoSycNC调用。该脚本可用于dl-infer-perf、nvprof-f--csv--print api summary python3-infer\u perf/to\u xla.py mobilenet--batch=64--threads=1,tensorflow,deep-learning,tensorflow-xla,Tensorflow,Deep Learning,Tensorflow Xla,如果您对此有任何想法,我们将不胜感激

如果您对此有任何想法,我们将不胜感激