ArangoDB在slurm sbatch提交后保持沉默

ArangoDB在slurm sbatch提交后保持沉默,arangodb,slurm,Arangodb,Slurm,我试图在克雷超级计算机上以集群模式运行ArangoDB。 它在登录节点上运行。 我遵照这些指示: 为了正确使用Cray集群,我需要将其作为批处理作业(Slurm/sbatch)提交。 我在运行它时遇到问题,因为“arangod”没有声音,即它的命令行输出没有在slurm日志文件中结束 我已尝试使用此链接更改日志设置: 如果我把日志设置为“info”,那么我什么也得不到。如果我像这样使用“跟踪”: build/bin/arangod --server.endpoint tcp://0.0.0.0

我试图在克雷超级计算机上以集群模式运行ArangoDB。 它在登录节点上运行。 我遵照这些指示:

为了正确使用Cray集群,我需要将其作为批处理作业(Slurm/sbatch)提交。 我在运行它时遇到问题,因为“arangod”没有声音,即它的命令行输出没有在slurm日志文件中结束

我已尝试使用此链接更改日志设置: 如果我把日志设置为“info”,那么我什么也得不到。如果我像这样使用“跟踪”:

build/bin/arangod --server.endpoint tcp://0.0.0.0:5003 --agency.my-address tcp://148.187.32.9:5001 --server.authentication false --agency.activate true --agency.size 3 --agency.supervision true --database.directory db_dir/agency_2 --log.level startup=trace --log.level agency=trace --log.level queries=trace --log.level replication=trace --log.level threads=trace
我得到了一些东西,但它不会打印我感兴趣的任何行,也就是说,如果它创建了数据库目录,如果它以八卦模式结束,等等。如果我只是从终端运行控制台,我没有得到一行预期的输出

正如我所说:在登录节点上,一切都正常。我怀疑问题可能出在Slurm和arangod的互动中

你能帮我吗

*编辑*

我做了一个小实验。首先,我运行了以下命令(需要一条错误消息):

得到了这个(arangodb的第一行,我们期待的): slurm-…输出:

no database path has been supplied, giving up, please use the '--database.directory' option
srun: error: nid00008: task 0: Exited with exit code 1
srun: Terminating job step 8106415.0

Batch Job Summary Report for Job "slurm_test" (8106415) on daint
-----------------------------------------------------------------------------------------------------
             Submit            Eligible               Start                 End    Elapsed  Timelimit 
------------------- ------------------- ------------------- ------------------- ---------- ---------- 
2018-06-20T22:41:54 2018-06-20T22:41:54             Unknown             Unknown   00:00:00   00:30:00 
-----------------------------------------------------------------------------------------------------
Username    Account     Partition   NNodes   Energy
----------  ----------  ----------  ------  --------------
peterem     g34         debug            1          joules

This job did not utilize any GPUs

----------------------------------------------------------
Scratch File System        Files       Quota
--------------------  ----------  ----------
/scratch/snx3000           85020     1000000
然后我运行这个:

#!/bin/bash -l
#SBATCH --job-name=slurm_test
#SBATCH --time=00:30:00
#SBATCH --nodes=1
#SBATCH --ntasks-per-core=1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=1
#SBATCH --partition=debug
#SBATCH --constraint=mc

export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK

srun build/bin/arangod --server.endpoint tcp://0.0.0.0:5001 --agency.my-address tcp://127.0.0.1:5001 --server.authentication false --agency.activate true --agency.size 1 --agency.supervision true --database.directory agency1
这创建了“agency1”目录,但没有完成(运行了3分钟以上)。因此,几分钟后,我“扫描”了这份工作。这是唯一的输出(slurm-…out:):

所以:我知道它在这两种情况下都在运行(提供输出或板条箱文件夹)。但我不知道为什么它在第二种情况下没有输出

我希望这能澄清我的问题


谢谢,伊曼纽尔

请您打印整个
slurm
作业命令/作业文件好吗
arangod
记录到
stdout
。当
stdout
被重定向到输出文件时,正如集群批处理系统默认情况下所做的那样,您应该监视该文件。据我所知,slurm per default写入
slurm-$jobid.out

感谢您询问详细信息。你知道会发生什么吗?你有没有寻找我上面提到的
slurm-$jobid.out
。输出通过管道传输到这些文件。这不是arangodb的行为。slurm就是这样做的。是的,我所说的输出就是你提到的这些文件。slurm-…它们首先包含标准输出,然后是“批处理作业摘要”。
#!/bin/bash -l
#SBATCH --job-name=slurm_test
#SBATCH --time=00:30:00
#SBATCH --nodes=1
#SBATCH --ntasks-per-core=1
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=1
#SBATCH --partition=debug
#SBATCH --constraint=mc

export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK

srun build/bin/arangod --server.endpoint tcp://0.0.0.0:5001 --agency.my-address tcp://127.0.0.1:5001 --server.authentication false --agency.activate true --agency.size 1 --agency.supervision true --database.directory agency1
srun: got SIGCONT
slurmstepd: error: *** STEP 8106340.0 ON nid00008 CANCELLED AT 2018-06-20T22:38:03 ***
slurmstepd: error: *** JOB 8106340 ON nid00008 CANCELLED AT 2018-06-20T22:38:03 ***
srun: forcing job termination
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.

Batch Job Summary Report for Job "slurm_test" (8106340) on daint
-----------------------------------------------------------------------------------------------------
             Submit            Eligible               Start                 End    Elapsed  Timelimit 
------------------- ------------------- ------------------- ------------------- ---------- ---------- 
2018-06-20T22:32:15 2018-06-20T22:32:15             Unknown             Unknown   00:00:00   00:30:00 
-----------------------------------------------------------------------------------------------------
Username    Account     Partition   NNodes   Energy
----------  ----------  ----------  ------  --------------
peterem     g34         debug            1          joules

This job did not utilize any GPUs

----------------------------------------------------------
Scratch File System        Files       Quota
--------------------  ----------  ----------
/scratch/snx3000           85020     1000000