#!/bin/bash
#SBATCH --job-name=your job name
#SBATCH --nodes=1 # 节点数,一台机器一个节点
#SBATCH --ntasks=1 # 任务数
#SBATCH --gres=gpu:4 # 请求4个GPU
#SBATCH --cpus-per-task=16 # cpu-cores per task (>1 if multi-threaded tasks)
#SBATCH --mem-per-cpu=4G # memory per cpu-core (4G is default)
#SBATCH --output=slurm_output_%j.log # 输出文件名,其中%j表示作业ID
#SBATCH --error=slurm_error_%j.log # 错误文件名
#SBATCH --mail-type=ALL
#SBATCH --mail-user=your email
#SBATCH --exclude dgx010,dgx011,dgx020,dgx031,dgx034,dgx038,dgx039,dgx040,dgx050,dgx051,dgx063,dgx064,dgx074,dgx078 # 不要跑在这些节点上
#SBATCH --nodelist dgx010,dgx011,dgx020,dgx031,dgx034,dgx038,dgx039,dgx040,dgx050,dgx051,dgx063,dgx064,dgx074,dgx078 # 要跑在这些节点上
# 提交任务
sbatch xxx.sh
# 取消指定任务
scancel 123
# 查看队列
squeue
squeue -u "名字"
# 查看任务详情
scontrol show job 123
# 查看所有任务
pestat -G
pestat -G | grep -v "down"
pestat -G | grep -v "down" | wc -l