Performance 与不带AVX和AVX2的tensorflow gpu相比,带AVX和AVX2的tensorflow gpu的速度有多快?
与没有AVX和AVX2的情况相比,使用AVX和AVX2的tensorflow gpu的速度有多快Performance 与不带AVX和AVX2的tensorflow gpu相比,带AVX和AVX2的tensorflow gpu的速度有多快?,performance,tensorflow,tensorflow-gpu,Performance,Tensorflow,Tensorflow Gpu,与没有AVX和AVX2的情况相比,使用AVX和AVX2的tensorflow gpu的速度有多快 我试图用谷歌找到答案,但没有成功。很难为Windows重新编译tensorflow gpu。所以,我想知道这是否值得。如果您的计算是CPU上的一个巨大的matmul,那么在Xeon V3上您将获得3倍的速度提升(请参阅基准测试)。但也有可能看不到加速,可能是因为CPU上执行的高运算强度运算时间不够 下面是“高性能模型”指南中的一个表格,用于在CPU上进行不同优化的resnet50培训。看起来您可以在
我试图用谷歌找到答案,但没有成功。很难为Windows重新编译tensorflow gpu。所以,我想知道这是否值得。如果您的计算是CPU上的一个巨大的matmul,那么在Xeon V3上您将获得3倍的速度提升(请参阅基准测试)。但也有可能看不到加速,可能是因为CPU上执行的高运算强度运算时间不够 下面是“高性能模型”指南中的一个表格,用于在CPU上进行不同优化的resnet50培训。看起来您可以在最佳设置下获得2.5的加速
| Optimization | Data Format | Images/Sec | Intra threads | Inter Threads |
: : : (step time) : : :
| ------------ | ----------- | ------------ | ------------- | ------------- |
| AVX2 | NHWC | 6.8 (147ms) | 4 | 0 |
| MKL | NCHW | 6.6 (151ms) | 4 | 1 |
| MKL | NHWC | 5.95 (168ms) | 4 | 1 |
| AVX | NHWC | 4.7 (211ms) | 4 | 0 |
| SSE3 | NHWC | 2.7 (370ms) | 4 | 0 |
如果您能够为Windows编译一个优化的版本,在本期中提及它会有所帮助——,似乎对这种构建有一些需求在出现错误之前,您能描述一下您的步骤吗?我坚持如下:对不起,我没有windows背景。顺便说一句,为实际网络添加了带有计时的表注意:这里有一个问题,我想其他人在构建此表时遇到了问题--cmake也不能正常工作,错误为:`C:\Program Files(x86)\MSBuild\Microsoft.Cpp\v4.0\V140\Microsoft.cppcomon.targets(171,5):错误MSB6006:“cmd.exe”退出,代码为1。[C:\tensorflow\tensorflow\contrib\cmake\build\cub.vcxproj]`(上一次成功的夜间构建版本)我检查了tensorflow是否支持AVX和AVX2。性能差异为0%(百分之零)。顺便说一下,我的CPU从来没有加载到100%。一切都在GPU上工作。