本文へスキップ

COG解析


 Clusters of Orthologous Groups of proteins (COGs)は,タンパク質配列の全てのオーソログを定義しているデータベースです。

ダウンロード先

データはここからダウンロードできます。
2003 COGs, 2014 update, dataの中から以下の3つをダウンロードします。
1. prot2003-2014.fa.gz: 配列データ
2. prot2003-2014.tab: COG_IDの説明
3. cog2003-2014.csv: 配列データのIDと種やCOG_IDの対応データ

使い方


1. BLASTサーチを行うためのデータベースを作製する。
 makeblastdb -in prot2003-2014.fa -dbtype prot

2. 対象配列をBLASTサーチする。
blastp -query target.fasta -db prot2003-2014.fa -outfmt 6 -num_threads 8 -evalue 1e-5 -out output.txt

3. tophitを抽出する。
 awk 'prev!=$1{print; prev=$1}' output.txt > tophit.txt

4. 文字列変換を行う。

---- 未完成 -----

inserted by FC2 system