AlphaFold2 (AlphaFold Ver.2.3.0)

(注:このページは古いバージョンの情報になります。最新版はこちらをご覧下さい。)

AlphaFold2 は DeepMind社が開発したタンパク質立体構造予測プログラムです。

利用方法


$ module load AlphaFold/2.3.0
$ run_alphafold.sh                                       # オンラインヘルプの表示
$ run_alphafold.sh -o outdir -f input.fa -t 2022-12-09
実行コマンドは run_alphafold.sh です(これは AlphaFold2 の非Docker版実行スクリプトを当スパコンシステム向けに改修したものです)。

必須オプション
-o <output_dir>   Path to a directory that will store the results.

-f <fasta_path>   Paths to FASTA files, each containing a prediction target that
                  will be folded one after another. If a FASTA file contains multiple
                  sequences, then it will be folded as a multimer. Paths should be separated
                  by commas. All FASTA paths must have a unique basename as the basename is
                  used to name the output directories for each prediction.
                  (a comma separated list)

-t <max_template_date> Maximum template release date to consider
                  (ISO-8601 format - i.e. YYYY-MM-DD <= 2022-12-09). 
                  Important if folding historical test sets.
その他のオプション
-n <openmm_threads>   OpenMM threads (default: 8)

--model_preset=<monomer|monomer_casp14|monomer_ptm|multimer>
                  Choose preset model configuration (default: monomer)
                  - monomer        : the monomer model
                  - monomer_casp14 : the monomer model with extra ensembling
                  - monomer_ptm    : monomer model with pTM head
                  - multimer       : multimer model

--num_multimer_predictions_per_model <int>      How many predictions (each with a different random seed) will be 
                                                      generated per model. E.g. if this is 2 and there are 5 models then 
                                                      there will be 10 predictions per input. Note: this FLAG only applies 
                                                      if model_preset=multimer (default: '5')
(注1) run_alphafold.py のオプションも指定可能です。
(注2) hhblitsの使用コア数は4,hmmsearch, jackhmmerの使用コア数は8で決め打ちですが、OpenMM の使用コア数は -n オプションで指定可能です(デフォルトは8)。

より進んだ利用方法


AlphaFold2 の全オプションを指定可能な実行コマンド run_alphafold.py もあります。利用法はオンラインヘルプ
$ run_alphafold.py
$ run_alphafold.py --helpshort
$ run_alphafold.py --helpfull
をご覧下さい。

(参考1)
run_alphafold.sh コマンドのジョブ
$ run_alphafold.sh -o outdir -f input.fa -t 2022-12-09
と同等の run_alphafold.py コマンドのジョブは以下の様になります。
PREFIX=/usr/appli/freeware/AlphaFold/2.3.0
export OPENMM_CPU_THREADS=8

run_alphafold.py \
  --output_dir=outdir \
  --fasta_paths=input.fa \
  --max_template_date=2022-12-09 \
  --db_preset=full_dbs \
  --model_preset=monomer \
  --data_dir=${PREFXI}/data \
  --uniref30_database_path=${PREFXI}/data/uniref30/UniRef30_2021_03 \
  --uniref90_database_path=${PREFXI}/data/uniref90/uniref90.fasta \
  --mgnify_database_path=${PREFXI}/data/mgnify/mgy_clusters.fa \
  --template_mmcif_dir=${PREFXI}/data/pdb_mmcif/mmcif_files \
  --obsolete_pdbs_path=${PREFXI}/data/pdb_mmcif/obsolete.dat \
  --pdb70_database_path=${PREFXI}/data/pdb70/pdb70 \
  --bfd_database_path=${PREFXI}/data/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
  --hhblits_binary_path=/usr/bin/hhblits \
  --hhsearch_binary_path=/usr/bin/hhsearch \
  --jackhmmer_binary_path=/usr/bin/jackhmmer \
  --kalign_binary_path=/usr/bin/kalign

(参考2)
run_alphafold.sh コマンドのジョブ
$ run_alphafold.sh -o outdir -f input.fa -t 2022-12-09 --model_preset=multimer
と同等の run_alphafold.py コマンドのジョブは以下の様になります。
PREFIX=/usr/appli/freeware/AlphaFold/2.3.0
export OPENMM_CPU_THREADS=8

run_alphafold.py \
  --output_dir=outdir \
  --fasta_paths=input.fa \
  --max_template_date=2022-12-09 \
  --db_preset=full_dbs \
  --model_preset=multimer \
  --data_dir=${PREFIX}/data \
  --uniref30_database_path=${PREFIX}/data/uniref30/UniRef30_2021_03 \
  --uniref90_database_path=${PREFIX}/data/uniref90/uniref90.fasta \
  --mgnify_database_path=${PREFIX}/data/mgnify/mgy_clusters.fa \
  --template_mmcif_dir=${PREFIX}/data/pdb_mmcif/mmcif_files \
  --obsolete_pdbs_path=${PREFIX}/data/pdb_mmcif/obsolete.dat \
  --uniprot_database_path=${PREFIX}/data/uniprot/uniprot.fasta \
  --pdb_seqres_database_path=${PREFIX}/data/pdb_seqres/pdb_seqres.txt \
  --bfd_database_path=${PREFIX}/data/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
  --hhblits_binary_path=/usr/bin/hhblits \
  --hhsearch_binary_path=/usr/bin/hhsearch \
  --jackhmmer_binary_path=/usr/bin/jackhmmer \
  --kalign_binary_path=/usr/bin/kalign

補足事項

  1. GPUを使用せずに計算した場合(APC, SDF キュー)、GPU, TPU, CUDA が無いといったメッセージや
    Very slow compile?
    といったメッセージが出ますが、無視して下さい。
     
  2. データベースのバージョン(日付)、は以下の通りです。
    データベース日付monomer,
    monomer_casp14,
    monomer_ptm
    multimer
    AlphaFold parameters2022/12/06--
    BFD database2019/03
    small version of BFD2021/08/03
    MGnify database2022/05
    Uniref90 database2022/12/14
    template mmCIF structures2022/12/09
    PDB obsolete.dat2022/12/09
    Uniref30 database2021/03
    PDB70 database2021/11/10×
    Uniprot database2022/12/14×
    PDB seqres database2022/12/09×
  3. データベースファイルの置き場所は以下の通りです。
    PCクラスター(APC, APGキュー)/usr/appli/freeware/AlphaFold/2.3.0/data/
    大規模共有メモリサーバ(SDFキュー)/NVME/appadm/AlphaFold2/data/2.3.0/

ライセンス


AlphaFoldのソースコードのライセンスは Apache License, Version 2.0 です。モデルパラメータのライセンスは Creative Commons Attribution 4.0 International (CC BY 4.0) で商用利用も可能になりました。

関連ページ