2020年12月06日
BLASTの古典的解釈法
現代生物学において生物にまつわる現象は分子レベルで詳細に解析されるようになりました.生物の現象は多種多様でそこから得られるデータも多種多様で途方もない量のデータとして表現されます.これまでの分子生物学研究の成果はデータベースという形で蓄積されています.データベースはいまだに完成しておりませんが,これらを現時点においても利用することが可能です.もちろん,現在の検索結果よりも未来の検索結果には隔たりがあることも十分考えられますので結果は時間の流れに大きく依存しているとも捉えられます.
タンパク質に代表されるアミノ酸配列解析は,まずはデータベースに蓄積された類似性の高いタンパク質の検索から始まると考られます.類似性の高いアミノ酸配列は進化の上で同じ祖先から派生したものと考えることができる場合があり,アミノ酸配列の類似性が高ければ機能的な類似性も高い可能性が考えられます.手元にあるアミノ酸配列の機能を予測する上でBLASTによる配列類似性解析は手始めに行うべき手法の一つと考えられます.
BLASTを用いる上で相同性と類似性という類義語を区別すると理解しやすい場合があります.相同性は定性的な意味合いで相同性があるかないかと考えられることができます.類似性は定量的な意味合いで配列がどれくらい似ているかを割合で表現することができると考えられることができます.例えば,この二つのタンパク質は90%の類似性があって,相同性があるといった表現がされます.
データベースから類似性の高い配列を検索する上では比較する2つの配列はそれぞれ少なくとも100残基(文字)程度必要と考えられます.タンパク質において類似性は25%より大きいことが望ましく,核酸において類似性は70%より大きいことが望ましいとされています.それぞれの類似配列に対して統計的な有位差を表すビットスコア(Bit score)が算出されますが,50以上あることが望ましいとされています.200以上で高い類似性とされています.80以上ではやや類似性の低い配列も含めて広く検出することができるとされています.
データベースから類似性の高い配列を検索する上で,その配列が偶然発見される数を期待値(E-value)としています.例えばE-valueが10であるとは同じくらいの規模の無作為の選んだデータベースから10個までは偶然見つかることが期待できるという意味合いになります.そのためE-valueが低ければ低いほど検索してヒットした偶然性は低く再現性が高いと考えられます.例としてE-valueが10-4未満を類似性の高さを見る上での一つの基準と考えることができます.
E-valueを用いる上での注意点として,E-valueが検索するデータベースのサイズに比例した数値であると覚えておく必要があります.データベースのサイズが大きければ大きいほど偽陽性となる可能性は高くなると直感的に捉えることができると思います.そのため,同じ配列を検索した場合でもデータベースのサイズが小さい時のE-valueと大きい時のE-valueで違いが現れしまうことになります.言い換えれば,大規模なデータベースで低いE-valueであれば高い類似性があると考えられます.一方で,比較的高いE-valueを用いて広く類似性の高い配列を集めたい場合には注意が必要です.小規模なデータベースから検索することや,大規模なデータベースの場合は閾値を上げておくことといった対策が必要と考えられます.
ドメインバックオーダー
タンパク質に代表されるアミノ酸配列解析は,まずはデータベースに蓄積された類似性の高いタンパク質の検索から始まると考られます.類似性の高いアミノ酸配列は進化の上で同じ祖先から派生したものと考えることができる場合があり,アミノ酸配列の類似性が高ければ機能的な類似性も高い可能性が考えられます.手元にあるアミノ酸配列の機能を予測する上でBLASTによる配列類似性解析は手始めに行うべき手法の一つと考えられます.
BLASTを用いる上で相同性と類似性という類義語を区別すると理解しやすい場合があります.相同性は定性的な意味合いで相同性があるかないかと考えられることができます.類似性は定量的な意味合いで配列がどれくらい似ているかを割合で表現することができると考えられることができます.例えば,この二つのタンパク質は90%の類似性があって,相同性があるといった表現がされます.
データベースから類似性の高い配列を検索する上では比較する2つの配列はそれぞれ少なくとも100残基(文字)程度必要と考えられます.タンパク質において類似性は25%より大きいことが望ましく,核酸において類似性は70%より大きいことが望ましいとされています.それぞれの類似配列に対して統計的な有位差を表すビットスコア(Bit score)が算出されますが,50以上あることが望ましいとされています.200以上で高い類似性とされています.80以上ではやや類似性の低い配列も含めて広く検出することができるとされています.
データベースから類似性の高い配列を検索する上で,その配列が偶然発見される数を期待値(E-value)としています.例えばE-valueが10であるとは同じくらいの規模の無作為の選んだデータベースから10個までは偶然見つかることが期待できるという意味合いになります.そのためE-valueが低ければ低いほど検索してヒットした偶然性は低く再現性が高いと考えられます.例としてE-valueが10-4未満を類似性の高さを見る上での一つの基準と考えることができます.
E-valueを用いる上での注意点として,E-valueが検索するデータベースのサイズに比例した数値であると覚えておく必要があります.データベースのサイズが大きければ大きいほど偽陽性となる可能性は高くなると直感的に捉えることができると思います.そのため,同じ配列を検索した場合でもデータベースのサイズが小さい時のE-valueと大きい時のE-valueで違いが現れしまうことになります.言い換えれば,大規模なデータベースで低いE-valueであれば高い類似性があると考えられます.一方で,比較的高いE-valueを用いて広く類似性の高い配列を集めたい場合には注意が必要です.小規模なデータベースから検索することや,大規模なデータベースの場合は閾値を上げておくことといった対策が必要と考えられます.
ドメインバックオーダー
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/10390375
※ブログオーナーが承認したトラックバックのみ表示されます。
この記事へのトラックバック