近年のヒトゲノム計画の成果として、ヒト(Homo sapiens)の遺伝子の構造が解明され、2001年から誰でもが自由にかつ無料でゲノムデータを利用できるようになりました。公開から6年が経過しましたが、その間にゲノムデータベースはさらに充実し、かつ多様なアプローチの方法が用意されるようになっており、それらの変化は目覚しいものがあります。
ここでは、各種生物のゲノムデータをミルクタンパク質の研究に利用するための入門の意味で、データベースへのアクセスの例を示しました。なお、本文で用いたウェッブサイトのアドレスや画面表示は刻一刻と変化していますので、様々な手掛かりから目的のサイトへ到達できるセンスも磨くようにして下さい。
各種生物のゲノムデータは複数の機関の提供しているウエッブサイトで利用できますし、またそれぞれが独自の解析ソフトも提供しています。National Center for Biotechnology Information (NCBI)にアクセスして、どのような情報が得られるかをまず試してみます。なお、ゲノムデータベースへのアクセス方法は他にEuropean Bioinformatics Institute (EBI)、DNA DataBank of Japan (DDBJ)などがあります。
NCBIのトップページの画面で向かって右側のHot Spots欄でたとえばHuman Genome Resourcesを選択すると図1となります。
図1.NCBIのHuman Genome Resources初期画面
ここでは、「ミルクに含まれているタンパク質の情報を持った遺伝子の位置を探し出す」という簡単なテーマに挑戦してみます。検索対象はウシラクトフェリンとします。その手順は以下の通りです。
1) まずNCBIのウエッブサイトにアクセスし、トップページのMap Viewer(Hot Spots欄にあります)をクリックしてそのサイトに移ります(図2)。
図2.NCBI Map Viewerの表示画面の一部
3) 図2の左上の“Search”欄でBos taurus (cow)を選択し(Build 2.1と3.1があったので3.1にしてみました)、”for”の欄には遺伝子記号やアクセッション番号(accession No.)などを入力します。今回はlactoferrinと入力したところ、図3の表示となり染色体22にラクトフェリン遺伝子が存在することが示されています。
図3. Map Viewerによる検索結果。
4) 図3の下部にはlactoferrinの検索結果のリストが表示されています。そのなかでTYPE欄がGENEとなっている行のMap element欄のLTFをクリックした結果が図4です。LTFの表示が色付で示されています。そのページ中でハイパーリンクのある部分をクリックすると、塩基配列、文献情報その他さまざまな情報へアクセスできるようになっています。いろいろと試して見て下さい。たとえば、LTFをクリックすると染色体22の22q24に含まれていることが記載され、さらに関連論文リストも示されており、各論文をクリックするとPubMedの該当論文のアブストラクトが表示されます。また、図4の上端のLinkにマウスカーソルを置くと、sv (Sequence Viewer)、pr (protein sequences)などと説明がポップアップで示されます。svをクリックすると、該当する塩基配列が得られます。
図4. ウシラクトフェリンのMaster Map: Genes On Sequenceの画面
以上が目的遺伝子の位置を知る基本的な検索目的は達せられたわけですが、次の課題として「ウシラクトフェリンの遺伝子をマウスラクトフェリンの遺伝子と比較して示す」という課題に挑戦してみます。ウシ遺伝子に対するマウスの相同遺伝子を見つける方法はいくつか用意されています。NCBIのUniGeneマウス地図、EnsemblのHomology Matchesを使用する方法、UCSCのGenome Browserから入る方法などです。ここではUCSCのGenome Browserから行う方法を述べます。
1) ウシラクトフェリンの遺伝子配列をまず入手します。そのためにUCSCのサイトに入り、Genome Browserをクリックし”genome” 欄でCowを選択し、”assembly”欄では最新のデータを選択、”position or search term”欄にlactoferrinと入力し「Submit」をクリックします。
図5 LTFでの検索結果画面
3) 現時点で6つの検索結果が得られましたが、全てmRNAです。そこで前の画面に戻ってlactoferrinの代わりにLTFと入力してみました。その結果が図5です。それらの一番上のRefSeq Genesのリンクをクリックすると、遺伝子マップが得られました(図6)。
4) 画面をスクロールして下に表示されている ”Comparative Genomics” のMouse Chain をhide以外にしてrefreshをクリックすると、マウスラクトフェリン遺伝子も表示されます。
図6 Genome Browserの画面
5) 染色体マップに示されたRefSeq Geneの左側にあるLTFの部分をクリックするとRefSeq Gene LTFの画面となり、名称、染色体上の位置などが分かり、さらに該当する部分をクリックすると例えばその部分の塩基配列やアミノ酸配列も見ることができます。
6) 図6の下方にマウス染色体の相当する部分が示されています。”mouse chain”として1行しか示されていない場合(denseでの表示)は”mouse chain”の部分をクリックすると相同な配列を持った染色体部分が全て示され、ラクトフェリン染色体に相当するのはマウスではchr9であることが分かります。そのいずれかの左側の名称部分をクリックするとMouse (Feb 2006/mm8) Chained Alignments (6462)の画面に切り替わり、その画面内の”View details of parts of chain within browser window”をクリックするとマウスの塩基配列、ウシの塩基配列、最後に両方の配列が並行して示してあります(図7)。
図7 マウス配列とウシ配列の一覧の一部
ここで述べたのはゲノムデータベース利用法のほんの一端です。これらのデータベース画面からさまざまなリンクを辿ることもできますので、目的タンパク質がどんな機能ドメインを持っているか、配列上あるいは構造上での相同性の高いタンパク質はあるのか、あるとすればそれらは何というタンパク質か、その他いろいろと有益な情報を得ることができます。