投入ジョブ・キュー情報の参照
|
投入ジョブの参照PBSでは投入されたジョブの実行状況やキューの処理状況を確認するためのコマンドqstatが用意されています。ジョブの実行状況では、ユーザ自身のジョブのみが表示されます。 % qstat Job id Name User Time Use S Queue ----------- ---------------- ---------------- -------- - ----- 143.fe3-adm testjob fukumoto 01:03:11 R SMALL 152.fe3-adm JOB fukumoto 23:15:26 R APC 159.fe3-adm fuku_JOB fukumoto 23:02:26 R APC 160.fe3-adm fuku_JOB fukumoto 0 Q SDF
ジョブの状態は以下に分類されます。
ジョブ情報に関するqstatコマンドの主なオプション
実行ジョブおよびキューの状況確認 (qstatmyjobs)実行ジョブが利用しているコア数やメモリサイズ等の状況確認、またどのキューが比較的空いているか、
などを確認するためのコマンドqstatmyjobs(当スパコンシステム独自のコマンドです)が用意されています。 % qstatmyjobs User: appadm JOBS CPUS MEM(gb) GPUS WALLTIME(h) Queue avail(use%) mysum/max avail max mysum/max avail max mysum/max avail max mysum/max default max ------ ----------- ----------- --------------------- ----------------------- -------------------- ------------- SMALL 1193( 76%) 0/UNLTD 12 12 0/96 48 48 0/UNLTD - - -/- 6 12 APC 1025( 78%) 19/UNLTD 36 56 450/UNLTD 780 980 1800/UNLTD - - -/- 2880 UNLTD APG 56( 89%) 0/UNLTD 24 64 0/UNLTD 765 980 0/UNLTD 2 2 0/UNLTD 2880 UNLTD SDF 42( 92%) 0/8 - 144 0/288 - 12288 0/UNLTD - - -/- 2880 UNLTD =============================================================================================================== TOTAL: JOBS) 19/UNLTD CPUS) 450/1100 MEM) 1800/18432 GPUS) 0/4 fe3-adm: Req'd Req'd Elap Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time --------------- -------- -------- ---------- ------ --- --- ------ ----- - ----- 14421.fe3-adm appadm APC MS_FRJZR 15345* 1 30 120gb 2880: R 59:15 cl11-adm/0*30 14425.fe3-adm appadm APC MS_FSI7Q 18073* 1 30 120gb 2880: R 59:13 cl12-adm/0*30 15084.fe3-adm appadm APC MS_H5QR8 32758* 1 30 120gb 2880: R 46:13 cs10-adm/0*30
TOTALの行では、キューごとの値の合計値を記載しています。
上記の例では、APCキューでは、コア数36、メモリ780gb の指定であれば、ジョブがすぐに実行開始される可能性があることがわかります。 % qstatmyjobs -m User: appadm JOBS CPUS MEM(gb) GPUS WALLTIME(h) Queue avail(use%) mysum/max avail max mysum/max avail max mysum/max avail max mysum/max default max ------ ----------- ----------- --------------------- ----------------------- -------------------- ------------- SMALL 1193( 76%) 0/UNLTD 12 12 0/96 48 48 0/UNLTD - - -/- 6 12 APC 1025( 78%) 19/UNLTD 12 56 450/UNLTD 880 980 1800/UNLTD - - -/- 2880 UNLTD APG 56( 89%) 0/UNLTD 24 64 0/UNLTD 765 980 0/UNLTD 2 2 0/UNLTD 2880 UNLTD SDF 42( 92%) 0/8 - 144 0/288 - 12288 0/UNLTD - - -/- 2880 UNLTD =============================================================================================================== TOTAL: JOBS) 19/UNLTD CPUS) 450/1100 MEM) 1800/18432 GPUS) 0/4 fe3-adm: Req'd Req'd Elap Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time --------------- -------- -------- ---------- ------ --- --- ------ ----- - ----- 14421.fe3-adm appadm APC MS_FRJZR 15345* 1 30 120gb 2880: R 59:15 cl11-adm/0*30 14425.fe3-adm appadm APC MS_FSI7Q 18073* 1 30 120gb 2880: R 59:13 cl12-adm/0*30 15084.fe3-adm appadm APC MS_H5QR8 32758* 1 30 120gb 2880: R 46:13 cs10-adm/0*30
上記の例では、APCキューでは、コア数12、メモリ880gb の指定であれば、ジョブがすぐに実行開始されることがわかります。 キュー情報の参照qstatコマンドは、キュー情報の参照にも使用できます。 % qstat -Q Queue Max Tot Ena Str Que Run Hld Wat Trn Ext Type ---------------- ----- ----- --- --- ----- ----- ----- ----- ----- ----- ---- APG 0 0 yes yes 0 0 0 0 0 0 Exec SMALL 0 4 yes yes 0 4 0 0 0 0 Exec SDF 0 3 yes yes 1 2 0 0 0 0 Exec APC 0 25 yes yes 2 23 0 0 0 0 Exec EMERG 0 0 no yes 0 0 0 0 0 0 Exec
キューに関するqstatコマンドの主なオプション
qstatコマンド出力サンプルqstat コマンドはジョブおよびキューの状況を確認するためのいくつかのオプションが用意されています。以下では、その利用例をご紹介します。 qstat -a-a オプションを付加することで、qstat よりも詳しい情報を表示します。 % qstat -a fe3-adm: Req'd Req'd Elap Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time --------------- -------- -------- ---------- ------ --- --- ------ ----- - ----- 110.fe3-adm fukumoto SMALL G16_job 18829 1 2 9gb 06:00 R 00:02 111.fe3-adm fukumoto APC test463 8121 1 4 9gb 2880: R 00:01 112.fe3-adm fukumoto SDF test 45502 1 16 768gb 2880: R 00:00
qstat -Qfあるキューに対する詳細な情報を参照したい場合には、オプション -Qf を指定します。 以下は SMALLキューに対する詳細な情報を表示しています。 % qstat -Qf SMALL Queue: SMALL queue_type = Execution Priority = 70 total_jobs = 0 state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running:0 Exiting:0 Begun :0 resources_max.mem = 108gb resources_max.ncpus = 12 resources_max.ngpus = 0 resources_max.walltime = 12:00:00 resources_default.mem = 9gb resources_default.ncpus = 1 resources_default.vmem = 36gb resources_default.walltime = 06:00:00 default_chunk.Qlist = SMALL max_run_res.mem = [u:PBS_GENERIC=576gb] max_run_res.ncpus = [u:PBS_GENERIC=64] enabled = True started = True ※上記は実際とは制限値が異なる場合があります。実際に上記コマンドを実行し、最新の値を確認してください。 ジョブの実行情報の確認 (tracejob)終了したジョブの実行情報(ジョブの返り値、使用メモリ量、平均CPU使用率、実行時間、等)は tracejob コマンドで確認できます。 $ tracejob [-n 日数] (Job ID)
$ tracejob -n 2 191784.fe3-adm Job: 191784.fe3-adm 04/19/2020 00:40:57 S enqueuing into SMALL, state 1 hop 1 04/19/2020 00:40:57 S Job Queued at request of ideas@133.103.201.23, owner = ideas@133.103.201.23, job name = kofamkoala, queue = SMALL 04/19/2020 00:40:58 L Considering job to run 04/19/2020 00:40:58 S Job Modified at request of Scheduler@fe3-adm 04/19/2020 00:40:58 S Job Run at request of Scheduler@fe3-adm on exec_vnode (cl04:ncpus=4:mem=62914560kb) 04/19/2020 00:40:58 L Job run 04/19/2020 00:46:35 S Obit received momhop:1 serverhop:1 state:4 substate:42 04/19/2020 00:46:35 S Exit_status=0 resources_used.cpupercent=149 resources_used.cput=00:08:18 resources_used.mem=39432kb resources_used.ncpus=4 resources_used.vmem=416888kb resources_used.walltime=00:05:38
(アレイ)ジョブの実行情報の確認 (PbsExitStatus)PbsExitStatusコマンドは終了したジョブの実行情報(ジョブの返り値、使用メモリ量、平均CPU使用率、実行時間、等)を出力します。 機能的には tracejob コマンドとほぼ同じですが、アレイジョブの確認が tracejob コマンドよりし易くなっています。 詳しくは こちら のページを参照下さい。 |