FASTA形式とFASTQ形式の違い

FASTA形式

以下にFASTA形式の具体例を示します。大なり記号(>)の後に配列の名称がきます。名称は改行を使用してはならず、１行で表示します。
配列の名称を改行したところから塩基配列が始まります。塩基配列には改行を使用しても問題ありません。次に出てくる(>)までが塩基配列になります。

>Lotus_japonicus_partial_genome_1
GATCGCTGCTAGTAGCTGCTAGCTAGCTGACGACTGCTGGGGGG
GTAGGGGGCATTATAAATTGCGGTAGCTCGGGGCTACGTGCTAA
GCGTACGATGCGGCGAATTGCGGATTTGGGGATATTG
>Lotus_japonicus_partial_genome_2
GATTATATGCGCGCGCATTATGCGTAATGCGAGGCGAGAGTCGAAATGCGGATCGGAG
GCTAG
CGCGATGCGGCGATTATTATTTGCGAT
GTAGCGATGCGCTATCGTAGCGTAGCTATGCTAGCTCGGCGATCGT
GCTAGGCTATCGAGTGCGCGTA

FASTQ形式

FASTQ形式は、1配列あたり4つの行から形成されています。1行目は、アットマーク(@)の後に配列の名称、２行目に塩基配列、３行目にプラス(+)、4行目にクオリティスコアが示されています。

注意１）FASTA形式とは異なり、配列やクオリティスコアの途中で改行を入れてはいけない。
注意２）プラス(+)の後に配列名を表示することもある(例：sequence_name_3)。
注意３）sequence_name_2の例でクオリティスコアがアットマーク(@)から始まっているが、配列名でない。

@sequence_name_1
GCTAGCATGCTACGTTTTGGGGCATGCTAGCTACGATCGACGTATTTTTC
+
? ? ? * : 3 3 : , , B 9 8 ? 4 7 3 B A J J J J J J J 5 5 B 4 J J J J J J J J J J = (
@sequence_name_2
AAAATGCACGGCGGCGTAGCTATGATGCTAGTTTTATCGATGCACGCGAT
+
@ ? N * : ! 3 : , , B 9 @ ? 4 7 3 B A J J J 5 J > J J J B 4 J D J J A J J J J B
@sequence_name_3
TTTGCTGCATGCCGGACTTGNNNNTAGCTATTGGGCGATGCGCGATCGGG
+sequence_name_3
3 B A J J J 5 J > J S J B 4 J A J J A J J J J B ( ) ) ) J + * . / & & & ( P J J J J

クオリティスコア

文字化けのような4行目のクオリティスコアの解釈について、説明致します。例えば、sequence_name_1の1塩基目は「G」です。この塩基のクオリティスコアは、下の「？」です。下のFigを見ると「？」は「30」であることが分かります（一般的に一番上の紫色や一番下のオレンジ色が用いられています）。得られたクオリティスコア(Q)から以下の公式を用いて、エラーの生じる確率P_errorを求めます。

　　　　　　　　　　　　Q=-10log₁₀P_error　　　つまり、　P_error＝10^(-Q/10)

クオリティスコア(Q)が「30」であれば、エラーの生じる確率P_errorは0.1％なので、読み取られた塩基「G」の信頼度は、99.9％になります。

同様に、クオリティスコア(Q)が「20」であれば、エラーの生じる確率P_errorは1.0％なので、読み取られた塩基の信頼度は、99.0％になります。クオリティスコア(Q)が「10」であれば、エラーの生じる確率P_errorは10％なので、読み取られた塩基の信頼度は、90.0％になります。

Reference

1. FASTQ format

このページの先頭へ

FASTA形式とFASTQ形式の違い

FASTA形式

FASTQ形式

クオリティスコア

Reference

ナビゲーション