X86 DC PMM(内存模式)缓存一致性表现如何?

X86 DC PMM(内存模式)缓存一致性表现如何?,x86,intel,cpu-architecture,cpu-cache,persistent-memory,X86,Intel,Cpu Architecture,Cpu Cache,Persistent Memory,当前设置: 目前,最新的英特尔体系结构具有非包容性的三级缓存,其中每个片(+CHA)都包含一个“嗅探过滤器”,其中包含三级目录在具有包容性的情况下可能提供的位置信息(此设计选择可能避免一致性消息占用网状带宽)。Most还默认启用“内存目录”,可用于过滤远程嗅探或以其他方式更改一致性事务本地和远程部分的定时属性。 当访问属于不同套接字的内存位置时,RFO直接发送到QPI/UPI环,而不是L3+CHA。内核复制L3维护的源地址解码器(SAD)寄存器,这些寄存器确定哪个NUMA节点负责物理地址。一旦R

当前设置:
目前,最新的英特尔体系结构具有非包容性的三级缓存,其中每个片(+CHA)都包含一个“嗅探过滤器”,其中包含三级目录在具有包容性的情况下可能提供的位置信息(此设计选择可能避免一致性消息占用网状带宽)。Most还默认启用“内存目录”,可用于过滤远程嗅探或以其他方式更改一致性事务本地和远程部分的定时属性。 当访问属于不同套接字的内存位置时,RFO直接发送到QPI/UPI环,而不是L3+CHA。内核复制L3维护的源地址解码器(SAD)寄存器,这些寄存器确定哪个NUMA节点负责物理地址。一旦RFO到达负责的归属代理,它将决定是否必须将snoop发送到其他套接字/核心,并向调用者做出响应(可以并行执行)。还有OSB,如果带宽可用,让L3进行推测性监听

“内存目录”是DRAM中缓存线数据所在的一个或多个位,用于指示另一个一致性域是否具有缓存线的修改副本。
由于L3/CHA将跟踪本地核心/缓存的加载,因此不会更新这些位。 在M状态缓存线的写回失效后,内存目录位被清除,因为只有一个L3/CHA可以使缓存线处于M状态

英特尔DC PMEM,
从,第2.1.31节
(我想是在内存模式下,尽管他们没有在部分中指定)

在具有多个处理器的系统上,目录用于缓存一致性。该目录作为分布式内存目录实现,每个缓存线的一致性状态存储在内存中缓存线本身的元数据中。
如果不同处理器中的内核重复读取Intel Optane DC永久性内存模块中的同一组行,则每次都会多次写入Intel Optane DC永久性内存模块,记录一致性状态的变化

这表明PMM使用内存目录

这些写操作称为“目录写操作”,本质上是随机的。因此,其中一些写入操作会降低应用程序可用的有效Intel Optane DC持久内存模块带宽

在类似的设置中,普通DRAM也会受到随机目录写入的影响吗?
或者,在写带宽为48GB/s而PMM只有~2.3GB/s的DRAM中,这不重要吗

当DRAM“内存目录”存在时,为什么PMM需要使用目录一致性协议

OPTANE直流持久存储器模块可以通过不同的线程访问,并且如果观察到这些模式,一个要考虑的选项是通过禁用目录系统来改变英特尔OPTANE DC持久存储器模块区域的一致性协议,从目录到SNOOP。 对远程PMM的RDMA请求也需要通过远程DRAM吗

目前,最新的英特尔体系结构具有非包容性三级缓存 其中每片(+CHA)

自Skylake以来,采用服务器非核心设计的处理器在网状互连网络上具有非包容性L3。Tiger Lake(TGL)是第一个同质(仅大内核)微体系结构,其客户端无内核设计包括非包容性L3。请参阅:。但是CHA设计没有在TGL中使用

包括包含L3位置信息的“窥探过滤器” 若目录是包含的,那个么它将提供

嗅探过滤器是一个目录。这两个术语都指用于保存一致性信息的相同硬件结构

当访问属于不同套接字的内存位置时, RFO直接发送到QPI/UPI环

片上环形互连不符合QPI或UPI规范。这些互连实际上彼此有很大的不同。片上互连和外部互连之间有专用接口单元,可在消息格式之间转换。Intel使用QPI/UPI进行芯片之间的链接

当访问属于不同套接字的内存位置时, RFO直接发送到QPI/UPI环,而不是L3+CHA

你是说从核心访问?从一个核心到任何地址的所有类型的请求都通过一个缓存代理,该缓存代理可以是与该核心或同一NUMA域中的另一个CA并置的缓存代理。当CA收到请求时,它会将其发送给SAD(位于CA内部),以确定哪个单元应该为请求提供服务。同时,根据请求的类型,它还被发送到相关的L3片(如果存在并启用)进行查找。例如,如果请求读取处于E/F/S状态的数据缓存线(
RdData
),则并行执行L3查找操作。如果是从旧I/O空间读取,则不执行查找。如果执行了查找且查找结果为未命中,则SAD的输出将用于确定将请求发送到何处

一旦RFO到达负责的总部代理,它将决定是否进行监视 必须发送到其他套接字/核心,并回复调用者 (可以并行执行)

归属代理(或CHA的归属代理功能)不会在本地发送窥探。在L3未命中后,假设采用home snooping模式,则会发生以下情况: