本文へスキップ

BLASTBasic Local Alignment Search Tool

 BLASTとは

 分子生物学をかじった方なら誰でも知っているので別に説明はしない。異なる点は普通のwetな研究者ならpubmedやどっかのサイトでBLASTをかけていると思うが,次世代シークエンスでそんな事をやってると数百という配列をさばく事ができない。そこでこれから紹介する方法が必須となる。
 
 どっかのサイトを使ってBLASTをかける事を「リモート」という,これでは数百の配列をいちいちネットで検索するのかということになってしまう。そこで今回はPCの中に比べたい配列を保存してしまうのだ。これを「ローカル」という。

 BLASTのインストール方法と対象配列の保存方法

 BLASTの保存にはWindowsとMacで少々異なる。BLASTとBLAST+と2種類あって自分の計算機(mac)ではBLAST+,研究所の計算機はBLAST使ってます。ここでBLASTをダウンロードしてください。私はmacなのでncbi-blast-2.2.25+-universal-macosx.tar.gzをダウンロードしました。

 実際BLASTしてみよう

 まずBLASTする前に検索する配列をフォーマットしなくてはいけません。ここに様々なデータが提供されています。nrと付いているのは核酸,ntはタンパク質のnonredundantな配列です。かなりの容量があります。なので私は全生物のモデル生物と呼ばれる生物のデータベースを自分で作りました。大腸菌,酵母,線虫,シロイヌナズナ,マウスなどなど。これを作る上で非常に役に立ったのは基礎生物学研究所の内山先生のサイトでした。真正細菌メインですが足りない分は他のデータベースから持ってきてください。
 
 そしたらメモ帳にそれらの配列を張り付けて一つのファイルにしてください。
UNIX使える人はcat filename*.fasta > output.fastaとかでやった方が楽ちん。

 そしたらフォーマットに書いてあるような実行コマンドで実行してください。核酸の時はnucl,タンパク質配列の時はprotです。赤文字は変更する所ではない事を示してます。何やらファイル増えました??

 そしたらBLASTX実行します。私がいつもやっているのは

  blastx -query (fastaファイル) -db (フォーマットしたfastaファイル) -out (拡張子なしのすきな名前)
                               -evalue 1e-20 -outfmt 6 -num_threads 6 &

とやっているのがほとんど,詳しい説明は以下に書いてあります。

説明 blast blast+
フォーマット formatdb -i yeast.aa -p T -o T makeblastdb -in filename.fasta -dbtype prot (or nucl )
検索(核酸) blastall -p blastn -d yeast.nt -i test.txt -o test.out blastn -db yeast.nt -query test.txt -out test.out
検索(アミノ酸) blastall -p blastp-d yeast.aa -i test.txt -o test.out blastp -db yeast.aa -query test.txt -out test.out
検索(核酸から翻訳したアミノ酸) blastall -p tblastx -d yeast.nt -i test.txt -o test.out blastx -db yeast.nt -query test.txt -out test.out
複数のデータベースをまとめて検索 -blastall -p blastn -d "database1 database2" blastn -db "database1 database2"
出力アラインメント数 -b 数字 -num_alignments 数字
E-valueの閾値を指定 -e 1e-20 -evalue 1e-20
検索結果リスト出力数 -v 数字 -num_descriptions 数字
タブ区切りテキストで出力 -m 9 -outfmt 6
 XML形式で出力 -m 7 -outfmt 5
使用するCPU数を調節 -a 2 -num_threads 2


BLASTを分散計算









inserted by FC2 system