Parallel processing 暂存空间与主节点磁盘空间中的正常磁盘空间有何不同?

Parallel processing 暂存空间与主节点磁盘空间中的正常磁盘空间有何不同?,parallel-processing,cluster-computing,hpc,slurm,gnu-parallel,Parallel Processing,Cluster Computing,Hpc,Slurm,Gnu Parallel,我是HPC的新手,我正在努力建立scratch空间。在我正在使用的集群中,我需要使用SLURM workload manager设置临时空间。我正在努力解决以下问题 暂存空间与主节点中的正常磁盘空间有何不同 每个群集的暂存空间设置程序是否不同 在模拟仍在进行时,是否可以将文件从临时空间复制到主节点?是否可以将文件从临时空间传输到外部硬盘,而不将文件复制到本地主节点磁盘空间?或者这些东西因集群而异?因为我试过用scratch进行模拟。为此,我首先使用SLURM将输入文件复制到scratch文件夹

我是HPC的新手,我正在努力建立scratch空间。在我正在使用的集群中,我需要使用SLURM workload manager设置临时空间。我正在努力解决以下问题

  • 暂存空间与主节点中的正常磁盘空间有何不同

  • 每个群集的暂存空间设置程序是否不同

  • 在模拟仍在进行时,是否可以将文件从临时空间复制到主节点?是否可以将文件从临时空间传输到外部硬盘,而不将文件复制到本地主节点磁盘空间?或者这些东西因集群而异?因为我试过用scratch进行模拟。为此,我首先使用SLURM将输入文件复制到scratch文件夹,然后将timestep文件定向到scratch文件夹,模拟完成后,timestep输出文件将复制到主节点磁盘空间。在模拟过程中,我试图访问scratch文件夹中的timestep输出文件。但是,我在草稿空间的任何地方都看不到输出文件。但是,一旦模拟结束,我就能够看到主节点中的文件。我真的很困惑

对不起,如果这些问题听起来很傻的话。我对HPC完全是新手。请随时提问

谢谢


Ram

在维护大型共享集群时,一个经常发生的问题是,人们倾向于存储大量数据,而不需要自己动手清理。解决这个问题的一种方法是限制人们可以存储在主文件夹中的数据量(例如500GB)。这有一个非常明显的问题,当您处理大量数据时,您不能使用集群。一般来说,这是通过所谓的划痕空间来解决的。在scratch space上,用户通常可以存储大量数据(例如8TB),但是服务器的维护人员可能在此处设置了一些规则(例如,文件在两周后自动删除)

  • 临时空间的不同之处在于,管理员可能会在一段时间后删除文件。有时,暂存空间有更好的硬件,使得在那里执行IO进程的速度稍快一些
  • 暂存空间通常已经设置好,可以在
    /scratch
  • (通常)推荐的方法是将所有输出写入暂存空间(这也是因为IO在这里可以更快),并在完成所有操作后将最终结果从头复制到主文件夹。要从一个地方复制到另一个地方,请查看
    scp
    rsync
    文档,但这应该是可能的。我不知道你为什么看不到你的文件

第一步应该是询问HPC基础设施技术支持部门。没有专业维护的HPC基础设施生活在真空中-技术支持部门是现场获得建议的最佳场所,与您的HPC基础设施特定条件相匹配,并充分了解适用于您的用例的所有相关条款和条件。通常,最好的HPC工程人员都在那里工作,拥有大量的实践经验,因此,请毫不犹豫地与他们会面,询问HPC工作负载所需的所有细节和最佳实践。G/L&Happy Computing!谢谢你的回答。我找到了作业运行时无法找到文件的原因。因为我使用的暂存空间是节点本地临时暂存。在这种情况下,我只能在作业结束后才能看到文件。此外,作业结束后,临时空间中的文件将移动到作业提交目录,然后临时空间中的数据将自动删除。此外,与主文件夹或网络暂存空间不同,本地暂存仅在同一节点上运行的进程之间共享。很好,你知道了。