「クローン化」という言葉も、「組換えタンパク質」と同様、生命科学系研究の現場では、世間一般の認識と少し違う意味合いで使われることが多い用語となっています。
「クローン」と聞くと、コピー人間みたいなイメージが浮かんでくると思うのですが、もちろんそういう意味もあるんですけど、業界では「ある特定の遺伝子DNAを、プラスミドに組み込むなどして、いつでも自由に増やせる状態になったもの」のことも指して、この操作を「クローン化」(…とは普通いわず、英語っぽく、「クローニング」といいますが)と呼んでいます。
なので、前回から見ている一連の、甘々タンパク質・ソーマチンの遺伝子をプラスミドに組み込むという行為は、まさに「ソーマチン遺伝子をクローニングしている」といえるんですね。
(例えば教授の先生とかに、「ソーマチン作成プロジェクトはどうなった?」と聞かれたら、「今クローニングしてます!」と答える感じといえましょう。)
そんなわけでクローニングステップの続きにいってみましょう。
毎回貼る必要はないんですが、記事内の説明で、「このステップで必要なのです!」ということを書くつもりでいるので(と思いつつ、これまではそこまでたどり着かなかったわけですが)、改めて全体の流れを貼っておきましょう。
【大腸菌にタンパク質を作ってもらおう!】
1. 遺伝子DNAをゲットする!⇒済み!
2. そのDNAを、プラスミドに導入する(クローニング)!←今ココ
3. 使える形に加工したら、満を持して、DNAを大腸菌にぶち込む!
4. DNAがぶち込まれた大腸菌の選別!
5. 選ばれた「DNAがぶち込まれた大腸菌」をひたすら増やそう!
6. タンパク質合成のスイッチON!
7. 満を持して、目的タンパク質の収穫!
8. さすがにそのまんまでは大腸菌まみれで汚いので、キレイに精製しよう!
→見事、手元には大量の純品タンパク質が!やったね!!
…と、クローニングの話の続きへ行く前に、またまたいつもとても丁寧かつ温かいコメントをいただけるアンさんから、ちょうど前回触れたプラスミドについての質問を賜っていたので、例によって恐らく多くの方も似たような疑問点を抱き得るであろう良いご質問になっていたため、Q&Aで触れさせていただくとしましょう。
Q1. pET-15bというプラスミドは5708文字とのことだが、これは人間が5708文字で作ったから、ということでいいのか?また、制限酵素はその内の6文字を取って切断するということだけど、同じ6並びって、DNAがバラバラになっちゃうほど出てきちゃったりしないものなのか?
A1. このプラスミド(pET-15b)が5708文字なのは、まぁ「5708文字で作ったから」といえばそうともいえますが、元々は自然に存在するプラスミドを少しずつ改変して作ったものだと思うので(だから、特別何の意味もない、ただDNAがつながってるだけの領域とかもあります)、最終的に5708文字に落ち着いたのは、人為的に色々なエレメントを入れていった結果そうなったともいえるけれど、「元々自然界に存在する(大腸菌がもつ)プラスミドがそのぐらいのサイズのものだった」ということもできる感じでしょうか。
(例えばpET-15bにあった結構大きめなエレメントであるlacIという遺伝子スイッチタンパク質を欠いたpET-17bは、3306塩基と、比べると結構小さい感じになっていますね。)
一方「6並び」、つまり特定の制限酵素認識配列が出現する確率ですが、これも非常に良い着眼点というか面白い点なので、触れておきたかった話の1つでした。
6文字の並びがピタリ一致することって、たった4種類の文字(A, C, G, T)なんだし、結構あるんちゃう?と何となくパッと見の印象ではそんな気がすると思うんですけど、
4種類の文字が6つ並ぶ場合、あり得るパターン総数は、全部で4の6乗……これは頭の中だけで瞬殺でできる計算ですね、「(2の2乗)の6乗」→「2の12乗」→「2の10乗 × 2の2乗」→「1024×4」(2の10乗が1024なのは理系常識)→4096…と、脳内3秒で計算可能です。
(まぁこれぐらいなら4→16→64→256→1024→4096と4を6回掛けるのと大差ないかもしれませんが、物事を可能な限りなるべく単純化して考えるというのは、ドチャクソ重要な思考といえましょう。)
ということで、特定の6文字が出現する確率は1/
(…が、SmaI(CCCGGG)は存在しません。まさに、1/4096の確率なので、登場するかしないかは運次第って感じですね。)
結局この「6文字」というのが絶妙で、4文字だと至る所に出現してあらゆるものがズタズタになってしまう、しかし8文字だと出現率はさらに16倍小さくなって1/65536となり、認識配列が少なすぎて活躍の場がない、的な感じで、制限酵素という物質は6文字認識をするやつがメインな感じで進化してきたのでしょう。
いずれにせよ、「とある制限酵素の認識する配列」が自分の使うプラスミドや遺伝子に存在するかしないかは、その絶妙な出現率のおかげで完全に「場合による」ので、その都度チェックする必要があるってことになるわけですね。
つまり、細菌が色々なウイルスに対処するために、色々な配列のものを切る、色々なタイプの制限酵素を作り出したというのは、ある意味当然といえるんですね。
要は、たまたま人間がこの「特定の決まった配列だけを切る」性質に着目して、遺伝子工学実験に流用させてもらっているだけともいえるので、色々な種類があるのには別に特別な理由はなく、「細菌たちも生きるのに必死だった、結果、色々な制限酵素が生まれた」としかいえない話なのかもしれません。
値段については、作りやすさや需要と供給との兼ね合いなどがあるのでしょう。
基本的に、初期に発見されたものほど、「発見されやすい」ということだから恐らく安定して存在していて取りやすい・量も沢山存在…ということになるのか、歴史のありそうな酵素ほど安い印象です(まぁ必ずしもそうとも限りませんが)。
一応、制限酵素超メジャー4種として、具体的にはタカラバイオで1万ユニット7000円(現在キャンペーン中で4900円)で売られている最安四天王は、前回既に登場したBamHI、そしてEcoRI(エコアールワン)、HindIII(ヒンディースリー)、PstI(プストワン…これは、ピーエスティーワンと呼ぶ人の方が多いかもしれませんが)なんかが、極めて汎用される制限酵素ですね。
ちなみに、制限酵素の名前の最初の3文字は発見された生物の名前(学名)で、EcoRIはE. coliのRY13という名前の株から得られた最初の制限酵素ということで1(ワン:酵素の名前ではローマ数字になりますが)がついたもの……E.coliというのは大腸菌の学名でしたから、実はこの制限酵素はちょうど今からタンパク質合成に使おうとしている大腸菌由来の酵素であって、しかも歴史的に初めて見つかった制限酵素でもあるので、制限酵素の代表といえば、BamHIより実はこのEcoRIともいえるのです。
…とまぁ代表的とはいえ一連の話で使う予定も登場する予定もない酵素の話はどうでもいいでしょう。
ご質問に戻ると、「1箇所切れて、そこに組み換えられれば十分」は、まぁそうなんですが、何の遺伝子・どういった配列をもった遺伝子を使うかは実験次第で、それこそ無限のパターンが存在するわけです。
例えば、これはまた後ほどソーマチン遺伝子クローニングの話で具体的に触れようと思っていた点ですが、実は、ソーマチン遺伝子をチェックすると、700塩基程度の文字数にもかかわらず、ApaIの認識部位であるGGGCCCが存在します。
ソーマチンのDNA配列を再掲しましょう。
完全なる偶然ですが、たまたまGGGCCCという6文字が内部にあるせいで、ソーマチン遺伝子のクローニング(=遺伝子をプラスミドに導入)にApaIは使えないんですね。
その理由は……説明が前後してる感じでややこしいというか下手な解説になってますが、そもそもクローニングの実験デザインとしては、
「(プラスミドに挿入したい)目的遺伝子の両端に制限酵素認識配列を付加して、プラスミドも目的遺伝子もどちらも同じ制限酵素で切って、貼り付ける」
…というものなんですけど(より詳しくはまた改めて触れる予定です)、もしこのクローニングで、プラスミドをApaIで切ってソーマチン遺伝子を挿入したい場合(現実は違うけど、仮定として、もしそうだったら)どうなるか…?
ApaIで切ったプラスミドに挿入するために、ソーマチン遺伝子の一端にApaI認識配列(GGGCCC)を付けてApaIで切ると、まさかの、端っこだけではなく、遺伝子内部もApaIによって切れてしまい、プラスミドへの遺伝子全長の挿入が不可能になってしまうんですね!
実際はApaIではなく、プラスミドは「BamHIとNdeIで切る」という話だったので、より現実に即した話にしてみると、(ってまぁこれも結局仮定の話になってしまうわけですが)仮にソーマチン遺伝子内部にBamHI認識部位(GGATCC)が存在していたらどうなるか?
先ほどと同じ理由で、残念ながらBamHIは使えない、ということになるんですね(遺伝子の内部でもDNAが切れてしまい、バラバラになって、その断片をまたつなぎ合わせるのは困難を極めるから)。
実際はBamHIもNdeIもソーマチン遺伝子内部は切断しない(配列チェック済みです)ので使えるわけですが、「仮に切断配列がクローニングしたい遺伝子の内部に偶然存在したら」、残念ながらその制限酵素はクローニングには使えないのです。
ということで、無駄に長くなりましたが、そういう理由で、プラスミドには遺伝子の挿入に利用可能な制限酵素認識部位が複数存在していて、ユーザーは自分の遺伝子をチェックして、使える制限酵素を選んだ上で好きなものが使えるという自由度がある、という親切設計になっているのです……というのが、いただいた質問(なぜ色々な制限酵素があるのか、1つ切れれば十分ではないのか?)への回答になっているかと思います。
(pETシリーズのプラスミドは、タンパク質合成に特化したプラスミドなので、実は自由度が大分低いデザインになっています(その理由もいずれ…)。
これが、遺伝子を導入して増やすためにデザインされた、いわばクローニング用のプラスミドであれば、物凄い数の制限酵素認識部位が存在するので、そっちの方が例としては分かりやすいかもしれませんね。
最も歴史と伝統のあるクローニングベクター、pUC19という名前のプラスミド(パックナインティーンと呼ぶことが多いですが、pは当然plasmid、そしてUCは作成されたUniversity of Californiaのことですね)のマップがこんな感じです。
…ちょうど3時ぐらいの位置にある、HindIIIに始まって、EcoRIまで大っっ量にズラッと制限酵素切断部位が並んでいる所、ここが自分の入れたい遺伝子を入れることのできる(入れやすい)部位で、「マルチクローニングサイト(Multi Cloning Site;多数のクローニング部位)」と呼ばれています。マップにも、マルチクローニングサイトを意味するMCSと明記されていますね。)
もちろん、制限酵素認識部位が複数用意されている理由としては、「遺伝子内部に切断部位があったら使えない」以外にも、例えば複数の遺伝子をプラスミドに連続して挿入したい、なんて場合もあり得るわけです。
そんなとき、1種類の切断部位しかなかったら、1つの遺伝子を挿入した時点でもうそれ以上拡張できなくなるので、発展性がなくて終わってるんですね。
そんな理由で、プラスミドには複数の制限酵素認識部位(切断部位)が密に存在する設計で作られているのでした。
Q3. プラスミドはDNAの文字がつながったものだということだが、DNAということは、「その6文字の
A3. これは、タンパク質(アミノ酸の順番)を指定している部分なら3文字コドンでアミノ酸が指定されているし、そうじゃない部分は別に3文字コドンやアミノ酸は一切関係ない話になる、って感じですね。
また、ちょっと気になった点として、「6文字の酵素の部分」という意の書き方だと、「この特定の6文字が、制限酵素である」みたいに思われているようにも感じたのですが(ご質問はそのままコピペはしていないので、意を取り違えている可能性も十分ありますが…)、DNAの6文字自体は酵素ではありません。
この6文字は、「制限酵素が、認識して、切断する対象」、つまり酵素の働く標的であり、制限酵素自体は全く別の独立した物質、タカラバイオとかで購入できる、タンパク質ですね。
(つまり、プラスミドDNAと、例えばBamHIという制限酵素とを混ぜると、プラスミドの中にあるGGATCCという6文字の部分が切断される、ということ)
なので、制限酵素「認識部位」であるDNA6塩基は、別に制限酵素を作るわけでもこれ自身が酵素であるわけでもなんでもなく、また、コドンうんぬんも全く関係ありません。
その6文字がコドンの一部だろうとなかろうと、GGATCCという6文字が存在したら、BamHIという制限酵素は、問答無用にそこをズバッと切り開くという感じですね。
プラスミドの話に戻ると、結局、プラスミドの中には「コドンとして3文字ずつ使われる部分もあれば、使われない部分もある」という話に帰着します。
前述の通り、プラスミドは元々自然に存在するもの由来なので、全てが意味のある部分というわけではなく、何の意味もない部分も普通に存在しているという感じですね。
コドンとして使われている、つまりタンパク質が合成される領域は、そうと分かるようにマップでハイライトされていることがほとんどです。
pET-15bのプラスミドマップを再確認してみましょう。
矢印で示されているのが、「この方向に、開始コドンATGで始まり停止コドンで終わる、タンパク質の読み枠が存在しています」というサインですね。
(oriはタンパク質を指定していませんが、まぁこいつは例外ということで。「この向きにプラスミドが複製されます」という意味の矢印ですね。)
例えば、Apという部分、これは、何度かチラッと書いている通り、プラスミドを導入した後に「プラスミドを取り込んだ大腸菌のみを選択する」ために使える便利なマーカーで、アンピシリンマーカーと呼ばれているエレメントなのですが、具体的にはβ-ラクタマーゼというタンパク質を合成します(名前や機能は今はどうでもいいでしょう。分かりやすく、アンピシリン分解酵素と呼びましょうか)。
アンピシリン分解酵素は4643-5500がタンパク質の読み枠で、矢印が反時計回りになっているとおり、5500番目の塩基から、3塩基ずつがコドンとなっています。
具体的な配列も見れる、Addgeneのプラスミドビューアを覗いてみましょう。
アンピシリン分解酵素の部分をハイライトしてありますが、これこの通り、5500番から、開始コドンATGが始まっています。
(注:このアンピシリン分解酵素の合成は「逆方向」なので、ここには表示されていない、二本鎖の相棒が使われることに要注意!
DNAには向きがあり、コドンとして読まれるのは、必ず5'→3'方向(この画像なら、表示されている鎖がその向きで、二本鎖の相棒の鎖は、3'←5'という向きで存在していることになります)であり、反対向きでタンパク質が読まれるということですから、ここでは表示されていない相棒の鎖が使われる(そして、そちらの鎖を右から左に読んでいく)、ということになるわけです。
この辺マジでめっちゃくちゃややこしくて、多くの学生が最初つまずくポイントですが、冷静に考えたらなるほどそういうことかと納得できる、理に適った話にはなっている所ですね。)
もう少し丁寧に見ておくと、5498番目から5500番目はCATとなっていますが、Cの相棒はG、Aの相棒はT、Tの相棒はAなので、5500番目から(表示されていない相棒の鎖を)逆向きに読むと、ATGで、これがまさしく開始コドンになっている、という話です。
この画像には表示されていませんが、逆の端っこ、4641~4643番目はTTAであり、(相棒の鎖を)逆から読むとTAA、まさに停止コドンになっているという具合ですね。
(アンピシリンマーカーは、pET-15b公式マップでは4643-5500、Addgeneでは4640-5550となっていますが、これは単に、停止コドンを含めるか含めないかの差なだけですね。)
最後関連して重要な点に触れておくと、マップ右上の黒矢印が目的のソーマチン遺伝子を挿入する部分ですが、タンパク質はこの向きに合成されることが決まっているので、ソーマチン遺伝子は必ずこの向きに入れなければいけない、ということもまた大きな注意点ですね。
逆向きに入れたら、当然コドンの読み取りは真逆になってしまい、望んだのと全く違うゴミタンパク質ができてしまいます!
そのために、異なる制限酵素を使って向きを確定させる、という話につながるわけですが、そちらはまた次回ですね。
気付けばめちゃ長になってしまいました。
しかし、多くの方が疑問に思いがちな、痒い所に手が届く素晴らしいご質問だったと思うので、触れることができてスッキリです。
クローニングのより具体的な話は、また次回していくとしましょう。