投入ジョブ・キュー情報の参照
|
投入ジョブの参照PBSでは投入されたジョブの実行状況やキューの処理状況を確認するためのコマンドqstatが用意されています。ジョブの実行状況では、ユーザ自身のジョブのみが表示されます。 % qstat Job id Name User Time Use S Queue ----------- ---------------- ---------------- -------- - ----- 143.apfe3 testjob fukumoto 01:03:11 R SMALL 152.apfe3 JOB fukumoto 23:15:26 R APC 159.apfe3 fuku_JOB fukumoto 23:02:26 R APC 160.apfe3 fuku_JOB fukumoto 0 Q SDF
ジョブの状態は以下に分類されます。
ジョブ情報に関するqstatコマンドの主なオプション
実行ジョブおよびキューの状況確認 (qstatmyjobs)実行ジョブが利用しているコア数やメモリサイズ等の状況確認、またどのキューが比較的空いているか、などを確認するためのコマンドqstatmyjobsが用意されています(当スパコンシステム独自のコマンドです)。 % qstatmyjobs User: user jobs ncpus mem(gb) walltime(h) Queue vacant(use%) sum/sum_max avail max sum/sum_max avail max sum/sum_max default max ----- ------------ -------------- ------------------------ --------------------------- ----------------- QUICK 2798( 52%) 0/2 4 4 0/unlimited 72 72 0/unlimited 1 01 SMALL 2656( 50%) 0/unlimited 12 12 0/36 108 108 0/324 6 12 APC 2536( 51%) 10/unlimited 32 40 110/unlimited 360 720 640/unlimited 2880 unlimited APG 356( 44%) 0/4 40 40 0/unlimited 720 720 0/unlimited 2880 unlimited SDF 62( 87%) 1/8 - 144 20/288 - 6144 6000/8192 2880 unlimited ============================================================================================================ TOTAL 11/unlimited 130/500 6640/12288
TOTALの行では、キューごとの値の合計値を記載しています。
上記の例では、APCキューでは、コア数32、メモリ360gb の指定であれば、ジョブがすぐに実行開始される可能性があることがわかります。 % qstatmyjobs -m User: user jobs ncpus mem(gb) walltime(h) Queue vacant(use%) sum/sum_max avail max sum/sum_max avail max sum/sum_max default max ----- ------------ -------------- ------------------------ --------------------------- ----------------- QUICK 2798( 52%) 0/2 4 4 0/unlimited 72 72 0/unlimited 1 01 SMALL 2656( 50%) 0/unlimited 12 12 0/36 108 108 0/324 6 12 APC 2536( 51%) 10/unlimited 20 40 110/unlimited 720 720 640/unlimited 2880 unlimited APG 356( 44%) 0/4 40 40 0/unlimited 720 720 0/unlimited 2880 unlimited SDF 62( 87%) 1/8 - 144 20/288 - 6144 6000/8192 2880 unlimited ============================================================================================================ TOTAL 11/unlimited 130/500 6640/12288
上記の例では、APCキューでは、コア数20、メモリ720gb の指定であれば、ジョブがすぐに実行開始されることがわかります。 キュー情報の参照qstatコマンドは、キュー情報の参照にも使用できます。 % qstat -Q Queue Max Tot Ena Str Que Run Hld Wat Trn Ext Type ---------------- ----- ----- --- --- ----- ----- ----- ----- ----- ----- ---- QUICK 0 0 yes yes 0 0 0 0 0 0 Exec APG 0 0 yes yes 0 0 0 0 0 0 Exec SMALL 0 4 yes yes 0 4 0 0 0 0 Exec SDF 0 3 yes yes 1 2 0 0 0 0 Exec APC 0 25 yes yes 2 23 0 0 0 0 Exec EMERG 0 0 no yes 0 0 0 0 0 0 Exec
キューに関するqstatコマンドの主なオプション
qstatコマンド出力サンプルqstat コマンドはジョブおよびキューの状況を確認するためのいくつかのオプションが用意されています。以下では、その利用例をご紹介します。 qstat -a-a オプションを付加することで、qstat よりも詳しい情報を表示します。 % qstat -a apfe3: Req'd Req'd Elap Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time --------------- -------- -------- ---------- ------ --- --- ------ ----- - ----- 110.apfe3 fukumoto SMALL G16_job 18829 1 2 9gb 06:00 R 00:02 111.apfe3 fukumoto APC test463 8121 1 4 9gb 2880: R 00:01 112.apfe3 fukumoto SDF test 45502 1 16 768gb 2880: R 00:00
qstat -Qfあるキューに対する詳細な情報を参照したい場合には、オプション -Qf を指定します。 以下は SMALLキューに対する詳細な情報を表示しています。 % qstat -Qf SMALL Queue: SMALL queue_type = Execution Priority = 70 total_jobs = 0 state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running:0 Exiting:0 Begun :0 resources_max.mem = 108gb resources_max.ncpus = 12 resources_max.ngpus = 0 resources_max.walltime = 12:00:00 resources_default.mem = 9gb resources_default.ncpus = 1 resources_default.vmem = 36gb resources_default.walltime = 06:00:00 default_chunk.Qlist = SMALL max_run_res.mem = [u:PBS_GENERIC=576gb] max_run_res.ncpus = [u:PBS_GENERIC=64] enabled = True started = True ※上記は実際とは制限値が異なる場合があります。実際に上記コマンドを実行し、最新の値を確認してください。 ジョブの実行情報の確認 (tracejob)終了したジョブの実行情報(ジョブの返り値、使用メモリ量、平均CPU使用率、実行時間、等)は tracejob コマンドで確認できます。 $ tracejob [-n 日数] (Job ID)
$ tracejob -n 2 191784.apfe3 Job: 191784.apfe3 04/19/2020 00:40:57 S enqueuing into SMALL, state 1 hop 1 04/19/2020 00:40:57 S Job Queued at request of ideas@133.103.201.23, owner = ideas@133.103.201.23, job name = kofamkoala, queue = SMALL 04/19/2020 00:40:58 L Considering job to run 04/19/2020 00:40:58 S Job Modified at request of Scheduler@apfe3 04/19/2020 00:40:58 S Job Run at request of Scheduler@apfe3 on exec_vnode (ap124:ncpus=4:mem=62914560kb) 04/19/2020 00:40:58 L Job run 04/19/2020 00:46:35 S Obit received momhop:1 serverhop:1 state:4 substate:42 04/19/2020 00:46:35 S Exit_status=0 resources_used.cpupercent=149 resources_used.cput=00:08:18 resources_used.mem=39432kb resources_used.ncpus=4 resources_used.vmem=416888kb resources_used.walltime=00:05:38
(アレイ)ジョブの実行情報の確認 (PbsExitStatus)PbsExitStatusコマンドは終了したジョブの実行情報(ジョブの返り値、使用メモリ量、平均CPU使用率、実行時間、等)を出力します。 機能的には tracejob コマンドとほぼ同じですが、アレイジョブの確認が tracejob コマンドよりし易くなっています。 詳しくは こちら のページを参照下さい。 |