AlphaFold2 (AlphaFold Ver.2.2.4)

AlphaFold2 は DeepMind社が開発したタンパク質立体構造予測プログラムです。

利用方法


$ module load AlphaFold/2.2.4
$ run_alphafold.sh                                       # オンラインヘルプの表示
$ run_alphafold.sh -o outdir -f input.fa -t 2022-03-12
実行コマンドは run_alphafold.sh です(これは AlphaFold2 の非Docker版実行スクリプトを当スパコンシステム向けに改修したものです)。

必須オプション
-o <output_dir>   Path to a directory that will store the results.

-f <fasta_path>   Paths to FASTA files, each containing a prediction target that
                  will be folded one after another. If a FASTA file contains multiple
                  sequences, then it will be folded as a multimer. Paths should be separated
                  by commas. All FASTA paths must have a unique basename as the basename is
                  used to name the output directories for each prediction.
                  (a comma separated list)

-t <max_template_date> Maximum template release date to consider
                  (ISO-8601 format - i.e. YYYY-MM-DD <= 2022-03-12). 
                  Important if folding historical test sets.
その他のオプション
-n <openmm_threads>   OpenMM threads (default: 8)

--model_preset=<monomer|monomer_casp14|monomer_ptm|multimer>
                  Choose preset model configuration (default: monomer)
                  - monomer        : the monomer model
                  - monomer_casp14 : the monomer model with extra ensembling
                  - monomer_ptm    : monomer model with pTM head
                  - multimer       : multimer model

--num_multimer_predictions_per_model <int>      How many predictions (each with a different random seed) will be 
                                                      generated per model. E.g. if this is 2 and there are 5 models then 
                                                      there will be 10 predictions per input. Note: this FLAG only applies 
                                                      if model_preset=multimer (default: '5')
(注1) run_alphafold.py のオプションも指定可能です。
(注2) hhblitsの使用コア数は4,hmmsearch, jackhmmerの使用コア数は8で決め打ちですが、OpenMM の使用コア数は -n オプションで指定可能です(デフォルトは8)。

より進んだ利用方法


AlphaFold2 の全オプションを指定可能な実行コマンド run_alphafold.py もあります。利用法はオンラインヘルプ
$ run_alphafold.py
$ run_alphafold.py --helpshort
$ run_alphafold.py --helpfull
をご覧下さい。

(参考1)
run_alphafold.sh コマンドのジョブ
$ run_alphafold.sh -o outdir -f input.fa -t 2022-03-12
と同等の run_alphafold.py コマンドのジョブは以下の様になります。
PREFIX=/usr/appli/freeware/AlphaFold/2.2.4
export OPENMM_CPU_THREADS=8

run_alphafold.py \
  --output_dir=outdir \
  --fasta_paths=input.fa \
  --max_template_date=2022-03-12 \
  --db_preset=full_dbs \
  --model_preset=monomer \
  --data_dir=${PREFIX}/data \
  --bfd_database_path=${PREFIX}/data/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
  --mgnify_database_path=${PREFIX}/data/mgnify/mgy_clusters.fa \
  --template_mmcif_dir=${PREFIX}/data/pdb_mmcif/mmcif_files \
  --obsolete_pdbs_path=${PREFIX}/data/pdb_mmcif/obsolete.dat \
  --uniclust30_database_path=${PREFIX}/data/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
  --uniref90_database_path=${PREFIX}/data/uniref90/uniref90.fasta \
  --pdb70_database_path=${PREFIX}/data/pdb70/pdb70 \
  --hhblits_binary_path=/usr/bin/hhblits \
  --hhsearch_binary_path=/usr/bin/hhsearch \
  --jackhmmer_binary_path=/usr/bin/jackhmmer \
  --kalign_binary_path=/usr/bin/kalign

(参考2)
run_alphafold.sh コマンドのジョブ
$ run_alphafold.sh -o outdir -f input.fa -t 2022-03-12 --model_preset=multimer
と同等の run_alphafold.py コマンドのジョブは以下の様になります。
PREFIX=/usr/appli/freeware/AlphaFold/2.2.4
export OPENMM_CPU_THREADS=8

run_alphafold.py \
--output_dir=out \
--fasta_paths=input.fa \
--max_template_date=2022-03-12 \
--db_preset=full_dbs \
--model_preset=multimer \
--data_dir=${PREFIX}/data \
--bfd_database_path=${PREFIX}/data/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
--mgnify_database_path=${PREFIX}/data/mgnify/mgy_clusters.fa \
--template_mmcif_dir=${PREFIX}/data/pdb_mmcif/mmcif_files \
--obsolete_pdbs_path=${PREFIX}/data/pdb_mmcif/obsolete.dat \
--uniclust30_database_path=${PREFIX}/data/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
--uniref90_database_path=${PREFIX}/data/uniref90/uniref90.fasta \
--uniprot_database_path=${PREFIX}/data/uniprot/uniprot.fasta \
--pdb_seqres_database_path=${PREFIX}/data/pdb_seqres/pdb_seqres.txt \
--hhblits_binary_path=/usr/bin/hhblits \
--hhsearch_binary_path=/usr/bin/hhsearch \
--jackhmmer_binary_path=/usr/bin/jackhmmer \
--kalign_binary_path=/usr/bin/kalign

補足事項

  1. GPUを使用せずに計算した場合(APC, SDF キュー)、GPU, TPU, CUDA が無いといったメッセージや
    Very slow compile?
    といったメッセージが出ますが、無視して下さい。
     
  2. データベースのバージョン(日付)、は以下の通りです (2.2.2 と同じ)。
    データベース日付monomer,
    monomer_casp14,
    monomer_ptm
    multimer
    AlphaFold parameters2022/03/02--
    BFD database2019/03
    small version of BFD2021/08/03
    MGnify database2019/05
    Uniref90 database2022/03/02
    template mmCIF structures2022/03/12
    PDB obsolete.dat2022/03/12
    Uniclust30 database2018/08
    PDB70 database2021/11/10×
    Uniprot database2022/03/02×
    PDB seqres database2022/03/12×
  3. データベースファイルの置き場所は以下の通りです。
    PCクラスター(APC, APGキュー)/usr/appli/freeware/AlphaFold/2.2.4/data/
    大規模共有メモリサーバ(SDFキュー)/NVME/appadm/AlphaFold2/data/2.2.4/

ライセンス


AlphaFoldのソースコードのライセンスは Apache License, Version 2.0 です。モデルパラメータのライセンスは Creative Commons Attribution 4.0 International (CC BY 4.0) で商用利用も可能になりました。

関連ページ