補足から脱線：DNAが似てたらどーなる？！ - ひたすら自己紹介を続けて、いいお相手に巡り会えるのを待つブログ

飛び飛びで中途半端な感じになっている、いただいていたご質問2つ目、前提となる補足知識的なものにようやくある程度触れ終えた感じなので、早速続きに参りましょう。

Q2. まず、あの輪っかの図（プラスミドマップ）が、どいたち何のことかわからん苦手意識があるっていうか、さっきのラクトースオペロンがこのプラスミドにどう関係しちゅーかがちっともわからん。(まさに、得意の“つながらん”ってやつや。)

そもそもなんやけんど、、プラスミドに入ったソーマチンDNAは、いつまでプラスミドに入っちゅーんやか？

そして、「最初のうちの菌の数を増やすフェーズ」っていうがは、あの実験全体フローでいう「5.」のことやか？

A2. 前回の記事では2段落目の「挿入したソーマチン遺伝子はいつまでプラスミドに入ってるのか？」という点に触れ、「別にDNAは消えたりしない。いつまでも入っとるよ」ということを書いていました。

それを受けて、元のご質問を投げていただいたアンさんからは、

「プラスミドに入ったソーマチンDNAは、最終的には取り出さなければいけないような気になっちょったんよね。DNAがRNAに変換されて、更にはタンパク質にまで変換される？！…とハッキリ思っちょったわけではないけんど、イメージとして、元々後から入れたものだし、取り出して使うのが普通かなって気がしちょったんぜよ。」

…という感想を改めていただいていましたが、確かに、最初は遺伝子DNAをプラスミドDNAに、遺伝子工学ツール（制限酵素とか、リガーゼとか）を用いて自分の手でぶち込んでいたので、最後また遺伝子というのは取り出されるはずだ、というイメージをもたれるのも無理はないというか、むしろ自然な誤解とさえいえる話かな、って気もしますね。

しかし実際はそうではなく、プラスミドにぶち込んだ遺伝子DNAは、もうそれがそのまま使われるというかそれが完成品というか、もうそれ以上人間の手で色々いじくることはなく（「人間の手で」に限らず、一時的にほどかれることがある以外、もう形や配列が変わることもない）、あとは大腸菌くんの力を借りて、彼奴らの細胞の中でDNAからRNAが合成され、さらにそのRNAからタンパク質が作られる、って話なわけですね。

ちなみに前回は関連して、パックマンっぽいRNAポリメラーゼがリング状のプラスミドにくっついてる図を適当に作って載せていましたが、これも改めて、ああいう図を見ると僕なんかは度々「いやだから、『プロモーターを発見！』とか、なんでそんなことが可能なんだよ！？分子に目がついてるわけでもないんだろ？！そんな見てきたかのようにいわれても、にわかには信じがたいぜぇ～！！」と、まぁそんなに毎度必ずつっかかってたわけでもないですけど、やっぱり不思議に思うわけです。

一応これについてはもう何度か書いている話ですけど、結局RNAポリメラーゼもプラスミドも細胞内では熱運動をしているというか、適当に細胞内液を漂っている物質であって、それぞれ結構な数がありますから、たまたまぶつかり合うこともあるわけですね。

で、たまたま接触したときに、例えばT7 RNAポリメラーゼなら、T7プロモーター（＝TAATACGACTCACTATAというDNAの配列）とかなり強く結合する性質をもっているので（※）、T7 RNAポリメラーゼとT7プロモーターが偶然たまたま近付いたその瞬間に上手いことガッチリとくっつきあって離れず、そこから転写が始まる、ってメカニズムになっているという話なのです。

（※注）まぁそれも、「なんでそんな都合よく強く結合できるんだよ？」って疑問にはなるわけですけど、化学的にというか物理的にというか、両者の構造に起因する分子間相互作用とか、もっと細かく表面電荷の分布による何やらとかいった小難しい話で、こいつらはペアを作りやすい組み合わせになってるんです、としかいえない話かもしれませんね。

磁石のN極とS極はくっつっきますが、まぁその仕組みは磁力線うんぬんの小難しい話で説明が可能であっても、究極的には「なぜくっつくのか？」は「知らん。この世はそうなっとんねん、としかいえん話よ。とにかく実際にくっつくんだから、仕組みはともかく、受け入れるしかあるめぇ」って話ともいえる感じでしょうか。

なお、「じゃあTAATA…TATAが、1塩基でも違ったらくっつかんのか？逆に、似てる配列のDNAとかにくっついてRNAが合成され始めてしまう、みたいな事故はないわけ？」ってのも同じように感じる疑問だと思うんですけど、これはまぁどうなんでしょうね？

1塩基ぐらい変えても多分T7ポリメラーゼは余裕で認識できるんじゃないかなと思いますが、そういえば検証したことはなかった（というか意識したことがなかった）ので調べてみた所、「T7 promoter mutation」で検索したらヒットしてきたのが、またまた日本人研究者の方の論文、京大の古村さん他の論文で、まさにこの「T7プロモーターはどのぐらい変わってもOKなのか？」という気になる話を、以前チラッと話にだけ出していた次世代シークエンス技術を使って検証するというとても面白いものが目につきましたねぇ～。

pubmed.ncbi.nlm.nih.gov
まぁあえて細かく見るのも入門編的にあれかもしれませんが、割と単純な実験デザインで面白くもあるので、ちょっと紹介させていただきましょう。

2018年の論文で、かなり最近のものといえますが、次世代シーケンサー（NGS）を使って、大量の塩基配列解析ができるようになったからこその研究ですね。

図1で概略が説明されていますが…

f:id:hit-us_con-cats:20211023064544p:plain — https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0196905のFig 1より

まず、T7プロモーター、この実験では、TAATAに始まり、TATAまでの17塩基と、それに加えて、実際のRNA合成が始まるGGの2塩基の合計19塩基を解析対象としているようですが、こいつの中身をランダム化します。

具体的には、元々の塩基が70％程度残るようにし、別の塩基が10％ずつ導入されるように（つまり、元々の塩基がTなら、T: 70％、A: 10％、C: 10％、G: 10％といなるように）DNAを合成した感じのようです。

これはDNA合成業者が普通にやってくれるサービスで、DNAを合成する際は、以前見ていた通り何億何兆、下手したら何京本ものDNAが作られるわけですけど、「この場所の塩基は、上のパーセンテージで混ざった形のDNAを作ってください」という注文が可能なんですね。

当然、そのパーセントは「全体を見た場合の割合」であって、その中の特定の1本のDNAに着目すれば、どれか1つが選ばれているわけです。

例えば、元々の19塩基はこうですが…

TAATACGACTCACTATAGG

ちょうど1塩基だけ変異が入ったもの、例えば「TAACACGACTCACTATAGG」とか、

4塩基変異が入ったもの、例えば「TAATAAGATTCACTATGGT」みたいな感じなどなどで、あらゆる場所に変異が入ったもの入らなかったものが大量に混ざった、ごちゃ混ぜDNAプールが完成するわけです。

それぞれランダムに変異が入っているけれど、全体で見ると、例えば最初の塩基（元々はT）だと、Tであるものが70％程度存在し、残りの塩基に変わったのが10％ずつ30％程度存在している、って仕組みですね。

そんな感じの、ランダム化ぐちゃぐちゃDNAですけど、あくまでも元の塩基が70％は残るように設計しているので、ベースはT7プロモーターの配列になっていて、「数塩基変わっているものもある」という感じのプールになっている集団だといえましょう。

（具体的には、もちろんきっちり70％ということはなく、ある程度バリエーションがありますが、実際の実測値も概ね理論通り、7:1:1:1の割合程度に落ち着いていたようです。
　各位置の、各塩基の割合の表がコチラ↓）

f:id:hit-us_con-cats:20211023064655p:plain — Table 1より

…で、このT7ランダムDNAを使って、T7転写（DNA→RNAの反応）を行い、「どの程度の変異が入ったら転写が行われなくなるか？逆に、どの程度の変異が入っていても、転写は行われるか？」ということを見ていきたいわけですけど、何度も書いている通り（いやこの話は特に明記してなかったかもしれませんが）、転写は「…TATA」の次のGから始まり、新生RNA鎖はここが5'末端先頭の鎖になるので、転写が行われた後は、T7プロモーター部分は存在しなくなるんですね（「RNA鎖に、T7部は存在しない」ということ。DNAのT7部は、別にそのまま残っています）。

なので、できあがったRNAを見ても、そのままでは、「できたRNAが、どのプロモーター由来の産物か？」が分からないわけです。

そこでどうしたかというと、転写開始点の下流にもランダム配列を配置し、これを「バーコード部」と名付け、「T7ランダム部」と「バーコード部」が1:1の対応をさせる工夫がなされたようです。

つまり、DNAとRNAの両方をシークエンシングして配列を読むことで、

「RNAが作られたということは、プロモーターが機能したということだ」

→「RNAにはもうプロモーター領域はなくなっているけど、バーコードは存在するよ！」

→「バーコードを読んで、そのバーコードがどのT7変異プロモーターから生まれたものかを、DNAのシークエンス結果を参照することで辿ろう！」

という流れで、どのプロモーターが機能したかを検証可能になってるってことなんですね。

上手いこと考えられた、ナイスなデザインといえましょう！

言葉だけではやはり分かりづらいので、図に戻ると、ランダムT7プロモーターが灰色のボックス、そしてその下流にバーコードが存在するのが見て取れるかと思います。

実験の流れとしては、まず、(A)のDNAから、(C)のRNAへと転写（Transcription）が行われます（というか、チューブの中にDNAと酵素（T7 RNAポリメラーゼ）とかを混ぜて、自分の手で行います）。

そして、(A)のDNAも(C)のRNAも、それぞれをNGS（次世代シークエンサー）で、大量に配列を読みます（微妙に配列の違う大量のごちゃまぜの集団を読むわけですが、1塩基違いの分子であっても、「これこれこういう配列の分子が、1000個見つかりました」という精密な分析が可能なのが、NGSなのです）。

一例として、(B)では、ランダムT7・エントリーNo.1（バーコードNo.1）からNo.3まで3種類の分子が挙げられていますけど、(D)のRNAシークエンシングの結果で、例えばバーコードNo.1の配列をもったRNAは10個検出され、No.2が100個、No.3が1000個のRNA分子が検出された…という結果の例のようですが、RNAの存在量に応じて、

「このプロモーターからはRNAがたくさん合成されました。このプロモーターはしっかり機能してます！」

あるいは

「このプロモーターからはRNAがまるで得られていません。このプロモーターは、変異が入ったせいで、機能を失いました！」

ということが判別可能だ、ってことですね！

そんなわけで、合計で7847種類のT7プロモーターが分析されたようですが（これは、19塩基に変異を入れたときに理論上得られる数よりも随分少ないですが、まあまあ、それなりの数ではありますね）、この内97％が、元々の配列の「オリジナルT7プロモーター」によるRNA合成のわずか1％未満のRNA合成量しか見られなかったということで、圧倒的大多数はプロモーターに変異を入れることで、あっさり機能を失ってしまったという結果だったようです。

オリジナルT7の1％以上のRNAを合成できたやつらを「Highグループ」と分類したようですが（たった1％程度の能力でHighってのはどうなんだ、って気もうっすらするものの…）、以下のグラフにある通り、Highグループ（上半分のグラフ；7847種類の内、わずか3％程度）は、多くても5塩基までの変異しかないという感じで…

f:id:hit-us_con-cats:20211023064848p:plain — Fig 6より、注釈追加

一方、下のグラフは1％の能力ももたないカスプロモーターであるLowグループですけど、もちろんHighグループに比べて、変異の入っていた塩基数が多い感じですね。

ただ、1塩基だけ変異が入っていたものはLowグループには全然ないので、やはり、1塩基程度変異が入っていても、T7 RNAポリメラーゼは何とかT7プロモーターとくっついて機能することができる、って感じだといえましょう。

また、補足データとして、Highグループに分類されたその3％の精鋭、具体的には244種類のT7プロモーター配列の中で、維持されていた塩基（＝変異が入っていなかった塩基）の割合も公開されていましたが…

f:id:hit-us_con-cats:20211023064911p:plain — S1 Tableより

真ん中の、-9から-7番目にあたるCTCが、軒並み99％程度維持されていた、すなわちこの3塩基が変わっていることはほとんど全くなかった、って感じなんですね。

つまり言い換えると、T7の機能を維持する上でこの3塩基はとても大切だということで、個人的にはTAATA…TATAという「TとA」がT7の特徴だと思っていたのでこいつらが重要なのかな、とか漠然と思っていたんですが、むしろこんな真ん中にいるやつらが非常に大切だったとは、これは意外でしたね。

以上まとめると、T7プロモーター配列の内、4-5塩基が変わったらもうほとんど機能を失うということで、逆にいうと全体のうち15塩基ぐらいはT7のままでないといけない（特に真ん中のCTCが変わらないことが重要）ということですから、そんな長さのものが偶然に存在する確率はほぼ皆無なので、「T7 RNAポリメラーゼが偶然似た配列に結合する心配はないの？」という懸念点は、心配する必要はほぼないと断言して構わない感じですね。

（念のため、偶然15塩基がT7プロモーターと一致する確率は、単純に考えれば4の15乗ですから、これは2の30乗→(2の10乗)の3乗で、2の10乗は約1000なので、1000の3乗→キロ・メガ・ギガで、約10億分の1の確率なので、pET-15bにこんなのがあるわけはなく、恐らくヒトゲノム30億塩基で、ようやくあるかな、ぐらいのものではないでしょうか。
（実際、pET-15bでT7 RNAポリメラーゼから、目的の遺伝子以外が転写されることは全くありません。）

　一方ヒトの場合は、ヒト細胞でT7を使うことなんてないので、正直偶然あろうがなかろうがどうでもいい感じですね。
　一応、N分の1の確率のものを3N回試行したら、当たる確率は95％程度に落ち着くので、そう考えるとまず間違いなくT7と同じ配列はヒトのDNAの中にありそうですね。
…いや、それは「4-5塩基変化したT7」の話なので、17塩基全部が一致する確率はさらにもっと低くなりますから、やっぱり完全一致はなさそうです。）

…といった感じで、今回は唐突に「似てるエレメントはどうなの？」という想定質問から、ランダム化T7プロモーター解析の面白い論文に触れましたが、それだけでいい分量になってしまいました。

ご質問の続きへと進めるつもりだったのが、普通にまた脱線してしまいましたけど、まぁ次回改めてQ2を振り返っていくといたしましょう。

にほんブログ村