Performance 什么是数据的低延迟访问?
您所说的低延迟数据访问是什么意思?Performance 什么是数据的低延迟访问?,performance,memory,dataflow,low-latency,multiplexing,Performance,Memory,Dataflow,Low Latency,Multiplexing,您所说的低延迟数据访问是什么意思? 实际上,我对术语“延迟”的定义感到困惑 谁能详细说明一下“延迟”这个词吗 延迟—访问数据所需的时间 带宽—您可以获得的数据量 经典的例子是: 装满备份磁带的货车是高延迟、高带宽的。这些备份磁带中有很多信息,但要花很长时间才能到达任何地方 低延迟网络对于流式服务非常重要。语音流需要非常低的带宽(4 kbps的电话质量AFAIR),但需要数据包快速到达。即使有足够的带宽,在高延迟网络上的语音呼叫也会导致扬声器之间的时间延迟 延迟非常重要的其他应用程序: 某些类
实际上,我对术语“延迟”的定义感到困惑 谁能详细说明一下“延迟”这个词吗
- 某些类型的在线游戏(FPS、RTS等)
- 算法交易
获取响应的时间量LATENCY-
[us]
每单位时间的数据流量带宽-
/[GB
]`s
LATENCY
数字
如果不仔细考虑事务生命周期的整个上下文,术语延迟可能会被混淆:参与的线段{放大|重定时|切换| MUX/MAP ing |路由| EnDec处理|不谈密码学|统计-(de)压缩},数据流持续时间和成帧/行代码保护附加组件/(可选procotol,如果存在,封装和重新成帧)额外的剩余开销,会持续增加延迟,但也会增加数据量
举个例子,以任何GPU引擎营销为例。呈现的海量数据,大约是千兆字节的DDR5
和GHz
静默计时,都是用粗体传达的,他们没有告诉你的是,尽管有那么多事情,您的每个SIMT
许多内核,是的,所有的内核,都必须付出残酷的延迟-惩罚和等待+400-800[GPU clk]
s,只为了从GPU上接收第一个字节,这是一个被大肆宣传的千兆赫兹快速DDRx ECC保护的内存库。是的,您的超级引擎的
GFLOPs/TFLOPs
必须等待强>。。。由于(隐藏)延迟
而你在等待着所有的平行马戏团。。。由于延迟
(…任何营销铃声或口哨都无法帮助你,信不信由你(忘记缓存承诺,他们也不知道,远/晚/远存储单元中到底会有什么,因此无法从他们肤浅的本地口袋中为你提供这种延迟的一点拷贝——“远”谜团))
延迟
(和税收)无法避免
高度专业的HPC-仅设计有助于支付较少的罚款,而仍然无法避免延迟
(作为税收)罚款超出某些智能重新安排原则
CUDA Device:0_ has <_compute capability_> == 2.0.
CUDA Device:0_ has [ Tesla M2050] .name
CUDA Device:0_ has [ 14] .multiProcessorCount [ Number of multiprocessors on device ]
CUDA Device:0_ has [ 2817982464] .totalGlobalMem [ __global__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 65536] .totalConstMem [ __constant__ memory available on device in Bytes [B] ]
CUDA Device:0_ has [ 1147000] .clockRate [ GPU_CLK frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 32] .warpSize [ GPU WARP size in threads ]
CUDA Device:0_ has [ 1546000] .memoryClockRate [ GPU_DDR Peak memory clock frequency in kilohertz [kHz] ]
CUDA Device:0_ has [ 384] .memoryBusWidth [ GPU_DDR Global memory bus width in bits [b] ]
CUDA Device:0_ has [ 1024] .maxThreadsPerBlock [ MAX Threads per Block ]
CUDA Device:0_ has [ 32768] .regsPerBlock [ MAX number of 32-bit Registers available per Block ]
CUDA Device:0_ has [ 1536] .maxThreadsPerMultiProcessor [ MAX resident Threads per multiprocessor ]
CUDA Device:0_ has [ 786432] .l2CacheSize
CUDA Device:0_ has [ 49152] .sharedMemPerBlock [ __shared__ memory available per Block in Bytes [B] ]
CUDA Device:0_ has [ 2] .asyncEngineCount [ a number of asynchronous engines ]
CUDA设备:0_uu=2.0。
CUDA设备:0有[Tesla M2050]。名称
CUDA设备:0有[14]。多处理器计数[设备上的多处理器数]
CUDA设备:0有[2817982464]。totalGlobalMem[\uuuuu全局\uuuuu设备上可用的内存(字节[B])
CUDA设备:0具有[65536]。totalConstMem[\uuuuu常量\uuuu]设备上可用的内存(字节[B])
CUDA设备:0有[1147000]。时钟频率[GPU\U时钟频率,千赫兹[kHz]]
CUDA设备:0有[32]。warpSize[线程中的GPU扭曲大小]
CUDA设备:0有[1546000]。memoryClockRate[GPU\U DDR峰值内存时钟频率,单位为千赫兹[kHz]]
CUDA设备:0有[384]。memoryBusWidth[GPU\U DDR全局内存总线宽度(位[b]]
CUDA设备:0有[1024]。maxThreadsPerBlock[每个块的最大线程数]
CUDA设备:0有[32768]。regsPerBlock[每个块可用的最大32位寄存器数]
CUDA设备:0有[1536]。maxThreadsPerMultiProcessor[每个多处理器的最大驻留线程数]
CUDA设备:0有[786432]。l2CacheSize
CUDA设备:0有[49152]。SharedTemperBlock[\uuuu共享\uuuu]每个块的可用内存(字节[B])
CUDA设备:0有[2]。asyncEngineCount[多个异步引擎]
是的,电话为什么不呢?
提醒E1/T1电信公司层次结构内使用的64k电路交换上的8kHz-8bit采样的一个酷点
POTS
电话服务过去是基于同步修复延迟交换的(70年代后期,ies在日本标准、大陆标准、E3标准和美国标准、T3标准之间合并了全球同步的准同步数字体系网络,最终避免了许多令人头疼的问题。)第i国际运营商服务抖动/滑动/(重新)-同步风暴和退出)
SDH
SONET-STM1/4/16
,在155/622/2488[Mb/s]
带宽
同步多路复用电路上运行
SDH上最酷的想法是