DNAが二本鎖であること、そしてそれには方向があるということをご紹介していましたが、こういうのは具体的な様子を実際に見てもらうのが何よりであろうということで、今回はこちら、人類の英知・ヒトゲノムの深淵を覗き込むことのできる、素晴らしいツールを紹介してみようと思います。
実はゲノムブラウザーの類はいくつかの研究機関から色々なタイプのものが出ているんですけど、個人的には、天下のNIH(アメリカ国立衛生研究所)傘下のNCBI(アメリカ国立生物工学情報センター)運営の、Genome Data Viewerというのが、個人的に何となく操作も直感的で使いやすく、好きですね。
(ちなみによく論文を貼るときに使っているPubMedも、NCBIの運営です。)
以下のリンクカードは、例によってお酒分解酵素ALDH2を表示する形のものを貼っていますが、NCBIビューアのリンクになります。
www.ncbi.nlm.nih.gov
(NCBIのもの以外にも、こないだ二重らせんの論文の話で出てきたEBIの運営するEnsemblや、UCSC(カリフォルニア大学サンタクルーズ校)の運営するUCSC Genome Browserなんかもあります。)
このゲノムブラウザで、一体何を知ることができるのか?
…ヒトゲノムの、全てを知ることができます!
もちろん、「今分かっていることの全て」であって、まだまだ分からないことも沢山残っていて、むしろまだ全然未解明のことの方が多いとすらいえる、というのは先述の通りですけどね。
このゲノムブラウザ、何が見れるのか簡単に、意味のありそうな所だけピックアップして軽くサラッとさらってみるとしましょう。
こちらが先ほどのリンクを開いたときに見れるページの全体像です。
(スマホで見られるかどうかは、チェックしていないので分かりませんが、まぁ流石にこういうのを見るときはコンピューターを使う方がいい気がしますね)
縮小表示されていて何のこっちゃよぉ分からんかもしれませんが、順に触れていきましょう。
まず、一番上の方にあるAssembly: という所…
これは、使うデータベースを選べます。
ヒトゲノム(人間の全遺伝子一式)データは2003年に一応全てが解読されましたが、その後も、ミスの修正やギャップ部分を埋めていく作業など、日々改善されてアップデートされており、現在は2013年にリリースされた、GRCh38(Genome Reference Consortium Human Reference 38)というのが最新の大型アップデートで、さらにp13というマイナーアップデート(2019年2月)が一番最新のバージョンになっており、デフォルトではこれが使われている、という感じですね。
最新の情報を見れば十分なので、変える必要はないでしょう。
ちなみにこちらは当然、生データも、NCBIのFTPサーバーで公開されています。
ftp.ncbi.nlm.nih.gov
全遺伝子のデータは、テキストベースのファイルのくせして、圧縮しても1.2ギガバイト!
ちなみにダウンロードしてみましたが…
解凍すると、当然、ヒトの全DNAの情報が入っているわけですから、DNA情報だけで、1文字1バイトが30億文字分=30億バイト=3ギガバイト超になるわけですが、僕の今使ってる貧弱なマシンでは、メモリ不足でメモ帳からは開けませんでした!
ギガの無駄使い!!
まぁ専用のビューアとかもありますが、別に自分のPCに保存しなくとも、ゲノムブラウザーでいつでも自由に無料で見られるので、ダウンロードする必要などないでしょう。
一方、画像その横のChr 12は、当然、ALDH2を選択したので、ALDH2遺伝子が乗っている12番染色体のことを指しています。
全体画面左側にある、ミミズみたいな染色体の画像、これをクリックするだけで、お好みの染色体に一発で飛ぶことも可能です。
今は12番染色体が選ばれている、という感じですね。
ちなみにこの縞々模様、別にデザインのためにそうしているのではなく、現実的に、特殊な液体で染めると、このように染まることが知られているのです(「染色体」と呼ばれる所以ですね)。
具体的にはATが多い所とGCが多い所で染まり具合が違うのですが、詳しい原理はどうでもいいでしょう(僕も知りませんし)。
あぁでも一応染色体のネーミングだけ触れておくと、染色体は、必ず真ん中の辺でくびれる形になっていて(ここも重要な役割があるんですが、それはまたいずれ)、くびれを境に短い方を短腕、長い方を長腕と呼んで、それぞれp、qと表す決まりになっています。
(pは、フランス語のpetit(プチ)由来だそうですが、なぜいきなりフランス語?ちなみにqはpの次であって、特に意味はないとのことです。)
そして、p腕は1つか2つ、q腕は最大4つの領域に分けられ(濃く染まる部分を目安に分けられます)、その中でさらにバンドの濃淡に応じて小区分に分けられます。
領域は、くびれに近い方から1, 2, 3, 4となり、pやqの次に数字で表示され、さらにその次に小区分の数字が続きます。
ALDH2であれば、こいつは12番染色体の長腕qのくびれから2番目の領域、そしてさらにその中の小区分4番目に位置しているので、12q24などと表されることもあるわけですね。
でもまぁ、111766933番とかの方が、一意に定まっていて具体的でより明快なので、個人的にはこの通し番号の方が好きですね。
(ちなみにこの通し番号は、p腕の端っこを1として、q腕の端っこまで順番に1塩基ずつカウントしていきます。)
言葉で説明するより、次の図を見るのがめちゃくちゃ分かりやすいでしょう。
全体画像の内、データセット(GRCh38)を選択する所のすぐ下には、今回選んだ12番染色体の拡大図が表示されています。
この内、今はALDH2がある近辺を拡大表示していますから、青い四角形(q24.11と13の間にあります)で、今どこを見ているかが表示されていますね。
そして、その下のメイン画面、こちらが、染色体の詳細、つまり、遺伝子がどこに、どちらの向きで存在しているかを示してくれている部分です。
ALDH2の遺伝子は、クリックしたため薄い青四角でハイライトされていますが(いやあんまりハイライトされてないので、めっちゃ分かりづらいですけど)、マウスオーバーすると簡単な情報もポップアップ表示されるので、それも表示してあります(ポップアップのすぐ左上が、ハイライトされた遺伝子ですね)。
で、このALDH2遺伝子部分、よく見ると、右向き矢印(矢頭)が表示されていることが分かるかと思います。
だから、このALDH2は、この向きでDNA二本鎖を表示する場合、上下並べた内の上の鎖を普通の方向に読むことでタンパク質が作られている遺伝子だ、という風に判断することができるわけです(詳しくはまた後ほど)。
そして先ほどのメイン画面をよく見ると、左隣の方に、BRAPという遺伝子が存在しますが、これは、左向きの矢印になっています。
だから、このBRAPという遺伝子は、上下並べたDNA二本鎖の、下の鎖を、右から左に読む形(DNAには向きがあり、上の鎖は5'→3'、下の鎖は3'←5'という形で描かれていることに注意!)になっている、ということですね(これも、また後で拡大して見てみましょう)。
せっかくなのでブラウザの使い方も簡単に紹介しておくと、ってまぁ紹介するほどでもなく、直感的に使えるようにできている素晴らしいデザインなんですが、ブラウザメイン画面上部にあるツールバー、虫眼鏡とスケールで、拡大率をいじることができます。
ちなみに、どの拡大率であっても、背景の所をマウスで掴んで、見ている場所を左右に自由に動かすことも可能です。
そして、その虫眼鏡横の[ATG]というアイコンをクリックすると、拡大率が最大にまでなり、DNAが1塩基ずつ表示されるようになります!
(でも、ただ拡大率が最大になるだけなので、虫眼鏡+のアイコンを押し続ければよく、別にこんなアイコン要らない気もしますけど。)
また、同じツールバー右側の方にあるトンカチの[Tools]アイコンをクリックすると、色々な機能が出てきますが…
Searchで、DNAの塩基を直接検索することができます(もちろん、「ALDH2」のように、遺伝子名で検索することも可能です。どんな検索をしても、ちゃんと適切なものがヒットしてくる優秀な感じですね)。
ALDH2のタンパク質レシピ、最初の20文字(ATGTTGCGCGCTGCCGCCCG)を検索してみましょう。
無事ヒットしてきたので、クリックし、倍率を最大表示にした結果がこちら!
検索結果のウインドウ、12番染色体の111766983番目から、20塩基分111767002番までがヒットし、そして、Strand(鎖)がPositiveとなっていることがお分かりになると思います。
これがPositiveなので、「この遺伝子は、上の鎖を左から右に読みます」ってことが分かるんですね。
(もちろん、表示されてる矢印の向きでも分かりますが。)
実際、拡大率最大にしているのでDNAが1塩基ずつ表示されていますが、上の鎖がちゃんとATGTTG…となっています。
では、先ほど見ていた、ALDH2のすぐ隣にあった逆向き遺伝子、BRAPの方はどうか?
BRAPのアミノ酸レシピの最初20文字は、調べたら、ATGAGTGTGTCACTGGTTGTでした(おさらいですが、前回書いた通り、タンパク質は必ずATGから始まっています)。
検索してみましょう。
ね?
12番染色体の111685773番目から111685792番がヒットしましたが、Strand(鎖)は、Negative!
そして、矢印の向きも左向きで表示されています。
当たり前ですが、よく見てみると確かに、下の鎖を右から左に読むと、ATGAGTG…となっています。
ちゃんと方向が分かるように、ブラウザのDNAの文字列、上の鎖の最初(左端)に「5'>」、下の鎖の最後(右端)に「<5'」というアイコンが表示されていますね。
う~ん、面白い!
…ってまぁ、正直これだけっちゃあこれだけなんですけどね。
ちなみに、全体画像・メイン部分の下の方で青い山とか数字つきのバーとかがありましたが、まぁこれは遺伝子解析とかをする人向けの話なので、入門編では不要といえましょう。
あぁただ、遺伝子一覧と青い山の間、小さい文字ですがよく見ると「Cited Variations, dbSNP b154 v2」というコーナーがあるんですけど、これは、よく知られる代表的な変異が載っています。
一発でお酒に弱くなる、504番目のグルタミン酸(GAA)がリシン(AAA)になってる例の変異はどうかなぁ~、と思って見てみたら…
ちゃんと載ってますね!
ちなみに、拡大アイコン[ATG]の横にある、何かよぉ分からん緑青赤のアイコン、これをクリックすると、DNA配列の下に、コードされるアミノ酸も表示されるという親切設計になっております。
(1文字表記ですが、ハイライトしている部分、GAAで、グルタミン酸のEですね。
ちなみに、2つ表示されているのは、単に別のデータ(古いデータ)を参照したものも掲載されているだけで、基本同じです)
例の変異塩基をハイライトしましたが、またポップアップ表示にもされている通り、この111803962番のGは、Aになる変異も知られていますよ、ということが、ちゃんと表示されています。
ポップアップのリンクをクリックしたら、関連する論文に飛ぶこともできます。スゴすぎぃ!
(ちなみにその下には、そこまで著名&重要ではないけど、一応報告がなされている変異も表示されてますね。
ポップアップで隠れていない中で一番上にあるものは、このコドンの7個左にあるTACのAがGになるものですが、そういう変異を持った人も報告されています、という感じです。
意外と、かなり色んな変異が知られているみたいですね。お酒の強さに、個人差のある理由といえましょう。)
…とまぁこんな感じで、あまりにも素晴らしい、人類の知恵の結晶が、誰でもいつでも簡単にアクセスできるようになっています、という、ゲノムブラウザの紹介でした。
…ま、正直、「へぇ~、すごいね」ってだけで、こんなもん見ても別に面白くもなんともありませんが、染色体と遺伝子に親しむには、これ以上ない素晴らしいツールだと思います。
いうまでもなく、これは別に染色体と遺伝子に親しむためがメインなわけではなく、生命科学の研究を進める上でとても役に立つ強力なツールでもあるのですが、興味が湧いたら気まぐれにネットサーフィンならぬ染色体サーフィンでもしてみると、面白いかもしれませんね(つまんなさそ~)。
では次回、放置したままになっていたご質問等に、また戻ってみるとしましょう。