1.遺伝情報データベース

核酸配列データベース

GenBank(National Center for Biotechnology Information)

http://www.ncbi.nlm.nih.gov/

EMBL (European Bioinformatics Institute)

http://www.embl-heidelberg.de/

DDBJ (国立遺伝学研究所)

http://www.ddbj.nig.ac.jp/htmls/Welcome-j.html

 お互いに毎日データを交換しているので、基本的にどのデータ ベースを利用しても結果には大差はない。ただし、検索のアルゴリズムは Genbank(アメリカ)DDBJ(日本)で若干異なるらしい。

蛋白質のデータベース

SwissProt

これらの核酸のデータ をもとにしているので、核酸データベースより、遅く登録される。

新規遺伝子の登録

DDBJSAKURA(http://sakura.ddbj.nig.ac.jp/Welcome-j.html)

 

2.科学医学関連情報の取得 (NCBI例に)

NCBI

Pub Med: 文献検

Nucleotide: 遺伝子情報検索 (Accession No. 寄託番号)

たとえばmecA遺伝子、V-sis遺伝子とPDGF(ヒト血小板由来増殖因子) Borrelia flagellin gene

Protein: 蛋白質情報検索

3.WWWによるホモロジー検索(homology search) 近接結合法Neighbor-Joining(NJ)による系統樹作成DDBJを例に)

 機能未知の蛋白の部分配列をホモロジー検索する 元には『進化上類縁関係にあるならば、機能的にも共通である可能性が高い』という前提条件
  1.                 ダイナミック・プログラミング(DP)
  2.                 BLAST(Basic local alignment search tool)アルゴリズム:
        短い配列で、類似性が高い配列の検出、
FASTAより10倍は高速
  3.                 FASTAアルゴリズム:ギャップを含む弱い類似性配列の検出に有用、
        BLAST
よりも複雑なアルゴリズムを用いているので、 BLASTでかからないものが引っかかることがある。ただし検索に時間がかかる。

Borrelia flagellinの部分アミノ酸配列をBLASTにかけてホモロジー検索 → 検出された遺伝子情報から配列を取得(テキスト形式で保存)

BLASTによるホモロジー検索

1.                 Wordなど文書作成ソフトでFASTA形式の配列を作成する。 “>”のあとに配列の名称を10字以内で示す。改行の後配列ならべる。これテキスト形式で保存。

2.                 ClustalW(多重整列アルゴリズム)で整列、NJ法の系統樹作成、Bootstrap解析(系統樹の信頼性の確認、通常1000回のresamplingを行う)

3.                 データが返送されたら、XXX.aln(アライメント結果→ テキストデータ,等幅フォントで表示)、XXX.phbNJ法系統樹、Bootstrap値→ ソフトTreeview, または njprotで表示し、編集)

Treeviewのダウンロードhttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html

4.フリーソフトによるClustal X法、Clustal W法による配列の多重配列の整列と近接結合法Neighbor-Joining(NJ)を使った系統樹ファイルの作成

解析ソフトのダウンロード ClustalX, ClustalW,

ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX/

http://biomaster.uio.no/clustalw.html

ClustalX による解析法

1.                 FASTA形式のデータを作り、テキスト形式で保存

2.                 ClustalXからLoad seqeucnesを選び、テキストデータを読み込む。

3.                 Alignmentから、Do Complete alignmentをえらび、配列の整列を行う。

4.                 TreeからBootstrap N J treeを選び、系統樹作成とBootstrap値の算出を行う。この過程でXXX.aln(アライメント結果→ テキストデータ)、XXX.phbNJ法系統樹、Bootstrap値→ ソフト njprotで表示し、編集)

ClustalWによる解析法

(引用 http://cb.m.u-tokyo.ac.jp/~snonaka/research/phylogeny.html)

1.                 適当なエディタを使い,FASTA形式のデータを作る。FASTA形式とは,行頭に‘>’,続いて見出し(=遺伝子名を入れる),改行して配列というものが続いたデータである。配列の中に空白や改行があっても無視される。できあがったものは,空白を含まないファイル名で保存する。

2.                 ClustalWのあるフォルダにデータのファイルを移す。

3.                 ClustalWを起動する。clustalwFATclustalw-big'n'FATがあるが,後者の方が大きなデータを取り扱える。特に長いか多くの配列を扱わない限りどっちでもよい。最初に出てくるArgument: というのは無視してOKで先に進む。するとメニューが出てくる。以降の操作はすべて数字または文字をタイプしてリターンキーを押す。マウスは使えない。

4.                 Sequence Input From Disc(1)を選び,ファイル名を入力する。うまく行くと見出しの一覧と配列の長さが出力される。

5.                 Multiple Alignments(1)を選び,さらにProduce guide tree file only(2)で系統樹ファイルを作成する。どんな名前で保存するか尋ねられるので,デフォルト(‘.dnd’という拡張子がつく)でよければリターン。

6.                 計算が終わったら今度は数字をタイプするのではなくマウスでメニューバーからQuitを選び終了する。セーブするか聞かれるのは画面の表示なので必要はない。

Outgroupについて

 ClustalWはアルゴリズムとして近隣結合法を使っている。この方法でできる系統樹は基本的に無根系統樹といって,系統樹の根=祖先を特定しない。その意味で実はTreeViewPPCが描いている絵はでたらめなのである。この問題を解決するには,調べたいすべての遺伝子より縁遠いことが確かな別の遺伝子(outgroup)を含めて計算をする。Outgroupと他の遺伝子の境界が根ということになる。具体的には以下のとおり。

1.                 元データにoutgroupとなる配列を加える。

2.                 上記の手順で系統樹を表示させる。

3.                 Tree / Define Outgroup... outgroupの配列を指定する。

4.                 Tree / Root With Outgroup で再描画させる。

注  ClustalXClustalWフォルダに付属のnjplotの方が使いやすい。

Bootstrapingについて

 Bootstrap valueは以下のような手順で作られる。

1.                 元のデータに含まれる配列の中の任意の塩基またはアミノ酸を抜き出して(例えば3, 5, 6, 13, 16, 19, 20番という感じ)新しい配列を作る。

2.                 作った配列に対して系統樹を作製する。こういう試行を何回も(デフォルトは1000回)行う。

3.                 データ全体に対する系統樹と,試行によって作られた系統樹の分岐パターンが一致した回数(本来なら割合?)がBootstrap valueである。

 結局,簡単に言うとbootstrap valueとは「その分岐の仕方はどれくらい正しいか教えてくれる指標」である。よって,もっともらしい系統樹を描きたかったらこの値を入れるのをおすすめする。

1.                 ClustalWにおいて,配列を読み込んだ後 Phylogenetic trees (4)続いて Bootstrap tree (5)を選ぶ。デフォルトでは‘.phb’という拡張子のついたファイルが作られる。

2.                このファイルをTreeViewPPCで開く。Bootstrap valueが表示されない場合は,Tree / Show Internal Edge Labels を選ぶ。

注 ClustalWに付属のnjplotの方が使いやすい。

文献

FASTA

1.                 Wibur, W.J. and Lipman, D.J. (1983) Rapid similarity searches of nucleic acid and protein data banks. Proc. Natl. Acad. Sci. U.S.A., 80, 726-730.

2.                 Lipman, D.J. and Pearson, W.R. (1985) Rapid and sensitive protein similarity search. Science, 227, 1435-1441.

BLAST

3.                 Altschul, S. F., Gish, W., Miller, W., Myers, E.W. and Lipman, D.J. (1990) Basic local alignment search tool. J. Mol. Biol., 215, 403-410.

4.                 Karlin, S. and Altschul, S.F. (1990) Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc. Natl. Acad. Sci. USA., 87, 2264-2268.

ClustalX

5.                 Thompson, J. D., Gibson, T. J., Plewniak, F., Jeanmougin, F., and Higgins, D. G.  (1997). The CLUSTAL-X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. Nucleic Acids Res. 25: 4876-4882.

NJ

6.                 Saitou, N., and Nei, N. (1987) A neighbor-joining method: a new method for constructing phylogenetic tree. Mol. Biol. Evol. 44: 406-425.

参考書

1.      新生化学実験講座16 分子進化実験法 東京化学同人1993

2.      ヒューマンゲノム計画 金久実 共立出版 1997

3.      ゲノム情報への招待 金久実 共立出版 1996
4.      ゲノムネットのデータベース利用法 [第2版]  高木利久編  共立出版 1998