Cloud HPC作业研究和硬件利用率报告_Cloud_Mesos_Hpc_Slurm

Cloud HPC作业研究和硬件利用率报告

cloud

Cloud HPC作业研究和硬件利用率报告,cloud,mesos,hpc,slurm,Cloud,Mesos,Hpc,Slurm,我很难找到一份关于普通HPC集群平均硬件利用率的综合报告。谷歌或Facebook提供了关于其云硬件利用率的各种数据集，但我可以从HPC中心引用或查看任何类似的报告/数据集我的重点是，如果动态和长尾工作通过SLURM或Torque等粗粒度资源管理器运行，它们将受到多大的影响。我知道这两种资源管理器都支持细粒度执行，但它们并没有提供像Mesos或warn这样的资源管理器那样全面的API 根据定义，HPC力求达到最大利用率。保持资源繁忙，工作队列排满，保持良好的积压状态。资源/数据中心使用情况，这将

我很难找到一份关于普通HPC集群平均硬件利用率的综合报告。谷歌或Facebook提供了关于其云硬件利用率的各种数据集，但我可以从HPC中心引用或查看任何类似的报告/数据集

我的重点是，如果动态和长尾工作通过SLURM或Torque等粗粒度资源管理器运行，它们将受到多大的影响。我知道这两种资源管理器都支持细粒度执行，但它们并没有提供像Mesos或warn这样的资源管理器那样全面的API

根据定义，HPC力求达到最大利用率。保持资源繁忙，工作队列排满，保持良好的积压状态。资源/数据中心使用情况，这将取决于工作负载的类型。是内存还是计算，还是IO密集型。与其他任何事情一样，在构建HPC集群/环境时也需要权衡。因此，总体而言，并非所有资源或集群都能得到充分利用。还有改进的余地。关于Mesos与传统HPC调度器的比较，您是对的。Mesos是两级调度器。它更全面，但这并不能阻止人们将其用于Slurm或直接用于特设mpi。这就是为什么我要问与您相同的问题，使HPC数据中心更能适应不同的工作负载的原因之一，它可以在传统调度程序的基础上使用定制脚本“例如路由器、负载传感器”，用户可以在一定程度上定制和优化HPC资源的利用率。Univa和IBM LSF都有一些商业产品可以实现这一点。

没有多少HPC中心发布关于其使用情况的详细公开报告。例外情况通常是英国国家HPC设施，该设施提供了大量历史使用数据

当前服务ARCHER发布2014年至当前日期的月度和季度数据（包括使用情况）：

在之前的服务中，赫克托有2007-2014年的类似数据，网址为：

在此之前的服务HPCx拥有2002-2010年的数据：

这应该给你15年左右的数据来检查

我知道HPC上的利用率通常意味着让队列保持忙碌，但我想知道是否有研究表明实际的硬件利用率与我们在谷歌的论文（如CPI2）中看到的一样，或是他们集群中发布的数据集：谢谢。他们已经足够开始玩了。我只在赫克托数据集中看到，他们有一些系统利用率的显示。对于科学集群来说，我们只看到分配的百分比是作业的利用率，而不是实际的硬件利用率，这看起来真的很糟糕。是否有一份通过读取硬件性能计数器（集群范围）来报告作业的cpu利用率？