Clusters of Orthologous Groups of proteins (COGs)は,
タンパク質配列の全てのオーソログを定義しているデータベースです。
ダウンロード先
データは
ここからダウンロードできます。
2003 COGs, 2014 update, dataの中から以下の3つをダウンロードします。
1. prot2003-2014.fa.gz: 配列データ
2. prot2003-2014.tab: COG_IDの説明
3. cog2003-2014.csv: 配列データのIDと種やCOG_IDの対応データ
使い方
1. BLASTサーチを行うためのデータベースを作製する。
makeblastdb -in prot2003-2014.fa -dbtype prot |
2. 対象配列をBLASTサーチする。
blastp -query target.fasta -db prot2003-2014.fa -outfmt 6 -num_threads
8 -evalue 1e-5 -out output.txt |
3. tophitを抽出する。
awk 'prev!=$1{print; prev=$1}' output.txt > tophit.txt |
4. 文字列変換を行う。
---- 未完成 -----