AlphaFold2

(注:このページは古いバージョンの情報になります。最新版はこちらをご覧下さい。)

AlphaFold2 は DeepMind社が開発したタンパク質立体構造予測プログラムです。

利用方法


$ module load AlphaFold/2.0.0
$ run_alphafold.sh                                       # オンラインヘルプの表示
$ run_alphafold.sh -o outdir -f input.fa -t 2020-05-14
実行コマンドは run_alphafold.sh です(これは AlphaFold2 の非Docker版実行スクリプトを当スパコンシステム向けに改修したものです)。

必須オプション
-o <output_dir>   Path to a directory that will store the results.

-f <fasta_path>   Path to a FASTA file containing one sequence

-t <max_template_date> Maximum template release date to consider
                  (ISO-8601 format - i.e. YYYY-MM-DD). 
                  Important if folding historical test sets
その他のオプション
-d <data_dir>     Path to directory of supporting data
                  (default: /usr/appli/freeware/AlphaFold/2.0.0/data/)

-m <model_names>  Names of models to use (a comma separated list) 
                  (default: model_1,model_2,model_3,model_4,model_5)

-p <preset>       Choose preset model configuration (default: full_dbs)
                  - reduced_dbs : no ensembling and smaller genetic database config
                  - full_dbs    : no ensembling and full genetic database config
                  - casp14      : full genetic database config and 8 model ensembling
使用コア数は決め打ち(8個)です。qsub コマンドでは ncpus=8 を指定して下さい。

より進んだ利用方法


AlphaFold2 の全オプションを指定可能な実行コマンド run_alphafold.py もあります。利用法はオンラインヘルプ
$ run_alphafold.py
$ run_alphafold.py --helpshort
$ run_alphafold.py --helpfull
をご覧下さい。

(参考) run_alphafold.sh コマンドのジョブ
$ run_alphafold.sh -o outdir -f input.fa -t 2020-05-14
と同等の run_alphafold.py コマンドのジョブは以下の様になります。
PREFIX=/usr/appli/freeware/AlphaFold/2.0.0

run_alphafold.py \
  --bfd_database_path=${PREFIX}/data/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt \
  --mgnify_database_path=${PREFIX}/data/mgnify/mgy_clusters_2018_12.fa \
  --template_mmcif_dir=${PREFIX}/data/pdb_mmcif/mmcif_files \
  --obsolete_pdbs_path=${PREFIX}/data/pdb_mmcif/obsolete.dat \
  --pdb70_database_path=${PREFIX}/data/pdb70/pdb70 \
  --uniclust30_database_path=${PREFIX}/data/uniclust30/uniclust30_2018_08/uniclust30_2018_08 \
  --uniref90_database_path=${PREFIX}/data/uniref90/uniref90.fasta \
  --data_dir=${PREFIX}/data \
  --output_dir=outdir \
  --fasta_paths=input.fa \
  --model_names=model_1,model_2,model_3,model_4,model_5 \
  --max_template_date=2020-05-14 \
  --preset=full_dbs \
  --benchmark=false \
  --logtostderr

補足事項

  1. AlphaFold2で使用される tensorflow が 2021年7月30日に GPU版からCPU版に変更されました。 そのため当スパコンシステムの AlphaFold2 はGPUは使わず CPU だけで計算を行います(従いまして APC, SDFキューで実行可能です)。 実行時には GPU, TPU, CUDA が無いといったメッセージや
    Very slow compile?
    といったメッセージが出ますが、無視して下さい。
  2. データベースファイルの置き場所は以下の通りです。
    PCクラスター(APC, APGキュー)/usr/appli/freeware/AlphaFold/2.0.0/data/
    大規模共有メモリサーバ(SDFキュー)/NVME/appadm/AlphaFold2/data/

ライセンス


AlphaFoldのソースコード自体のライセンスは Apache License, Version 2.0 ですが、モデルパラメータは Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) license ですので、商用利用はできません

関連ページ