本文へスキップ

FASTA形式とFASTQ形式の違い

FASTA形式

以下にFASTA形式の具体例を示します。大なり記号(>)の後に配列の名称がきます。名称は改行を使用してはならず、1行で表示します。
配列の名称を改行したところから塩基配列が始まります。塩基配列には改行を使用しても問題ありません。次に出てくる(>)までが塩基配列になります。
>Lotus_japonicus_partial_genome_1
GATCGCTGCTAGTAGCTGCTAGCTAGCTGACGACTGCTGGGGGG
GTAGGGGGCATTATAAATTGCGGTAGCTCGGGGCTACGTGCTAA
GCGTACGATGCGGCGAATTGCGGATTTGGGGATATTG
>Lotus_japonicus_partial_genome_2
GATTATATGCGCGCGCATTATGCGTAATGCGAGGCGAGAGTCGAAATGCGGATCGGAG
GCTAG
CGCGATGCGGCGATTATTATTTGCGAT
GTAGCGATGCGCTATCGTAGCGTAGCTATGCTAGCTCGGCGATCGT
GCTAGGCTATCGAGTGCGCGTA

FASTQ形式

FASTQ形式は、1配列あたり4つの行から形成されています。1行目は、アットマーク(@)の後に配列の名称、2行目に塩基配列、3行目にプラス(+)、4行目にクオリティスコアが示されています。

注意1)FASTA形式とは異なり、配列やクオリティスコアの途中で改行を入れてはいけない。
注意2)プラス(+)の後に配列名を表示することもある(例:sequence_name_3)。
注意3)sequence_name_2の例でクオリティスコアがアットマーク(@)から始まっているが、配列名でない。

@sequence_name_1
GCTAGCATGCTACGTTTTGGGGCATGCTAGCTACGATCGACGTATTTTTC
+
? ? ? * : 3 3 : , , B 9 8 ? 4 7 3 B A J J J J J J J 5 5 B 4 J J J J J J J J J J = (
@sequence_name_2
AAAATGCACGGCGGCGTAGCTATGATGCTAGTTTTATCGATGCACGCGAT
+
@ ? N * : ! 3 : , , B 9 @ ? 4 7 3 B A J J J 5 J > J J J B 4 J D J J A J J J J B
@sequence_name_3
TTTGCTGCATGCCGGACTTGNNNNTAGCTATTGGGCGATGCGCGATCGGG
+sequence_name_3
3 B A J J J 5 J > J S J B 4 J A J J A J J J J B ( ) ) ) J + * . / & & & ( P J J J J


クオリティスコア

文字化けのような4行目のクオリティスコアの解釈について、説明致します。例えば、sequence_name_1の1塩基目は「G」です。この塩基のクオリティスコアは、下の「?」です。下のFigを見ると「?」は「30」であることが分かります(一般的に一番上の紫色や一番下のオレンジ色が用いられています)。得られたクオリティスコア(Q)から以下の公式を用いて、エラーの生じる確率Perrorを求めます。

            Q=-10log10Perror   つまり、 Perror=10^(-Q/10)

クオリティスコア(Q)が「30」であれば、エラーの生じる確率Perrorは0.1%なので、読み取られた塩基「G」の信頼度は、99.9%になります。

同様に、クオリティスコア(Q)が「20」であれば、エラーの生じる確率Perrorは1.0%なので、読み取られた塩基の信頼度は、99.0%になります。クオリティスコア(Q)が「10」であれば、エラーの生じる確率Perrorは10%なので、読み取られた塩基の信頼度は、90.0%になります。


Reference

1. FASTQ format

inserted by FC2 system