Cloud HPC作业研究和硬件利用率报告

Cloud HPC作业研究和硬件利用率报告,cloud,mesos,hpc,slurm,Cloud,Mesos,Hpc,Slurm,我很难找到一份关于普通HPC集群平均硬件利用率的综合报告。谷歌或Facebook提供了关于其云硬件利用率的各种数据集,但我可以从HPC中心引用或查看任何类似的报告/数据集 我的重点是,如果动态和长尾工作通过SLURM或Torque等粗粒度资源管理器运行,它们将受到多大的影响。我知道这两种资源管理器都支持细粒度执行,但它们并没有提供像Mesos或warn这样的资源管理器那样全面的API 根据定义,HPC力求达到最大利用率。保持资源繁忙,工作队列排满,保持良好的积压状态。资源/数据中心使用情况,这将

我很难找到一份关于普通HPC集群平均硬件利用率的综合报告。谷歌或Facebook提供了关于其云硬件利用率的各种数据集,但我可以从HPC中心引用或查看任何类似的报告/数据集


我的重点是,如果动态和长尾工作通过SLURM或Torque等粗粒度资源管理器运行,它们将受到多大的影响。我知道这两种资源管理器都支持细粒度执行,但它们并没有提供像Mesos或warn这样的资源管理器那样全面的API

根据定义,HPC力求达到最大利用率。保持资源繁忙,工作队列排满,保持良好的积压状态。资源/数据中心使用情况,这将取决于工作负载的类型。是内存还是计算,还是IO密集型。与其他任何事情一样,在构建HPC集群/环境时也需要权衡。因此,总体而言,并非所有资源或集群都能得到充分利用。还有改进的余地。关于Mesos与传统HPC调度器的比较,您是对的。Mesos是两级调度器。它更全面,但这并不能阻止人们将其用于Slurm或直接用于特设mpi。这就是为什么我要问与您相同的问题,使HPC数据中心更能适应不同的工作负载的原因之一,它可以在传统调度程序的基础上使用定制脚本“例如路由器、负载传感器”,用户可以在一定程度上定制和优化HPC资源的利用率。Univa和IBM LSF都有一些商业产品可以实现这一点。

没有多少HPC中心发布关于其使用情况的详细公开报告。例外情况通常是英国国家HPC设施,该设施提供了大量历史使用数据

当前服务ARCHER发布2014年至当前日期的月度和季度数据(包括使用情况):

在之前的服务中,赫克托有2007-2014年的类似数据,网址为:

在此之前的服务HPCx拥有2002-2010年的数据:


这应该给你15年左右的数据来检查

我知道HPC上的利用率通常意味着让队列保持忙碌,但我想知道是否有研究表明实际的硬件利用率与我们在谷歌的论文(如CPI2)中看到的一样,或是他们集群中发布的数据集:谢谢。他们已经足够开始玩了。我只在赫克托数据集中看到,他们有一些系统利用率的显示。对于科学集群来说,我们只看到分配的百分比是作业的利用率,而不是实际的硬件利用率,这看起来真的很糟糕。是否有一份通过读取硬件性能计数器(集群范围)来报告作业的cpu利用率?