ひたすら自己紹介を続けて、いいお相手に巡り会えるのを待つブログ

前回までで、遺伝子を切り貼りする最も古典的な方法である、制限酵素とリガーゼを使ったやり方をじっくり見ていました。

まぁ今時は制限酵素を使わない、更に洗練された次世代クローニング法なども使われるようになってきましたが、「スゴ甘タンパク質・ソーマチンを大腸菌で合成する」程度の入門実験なら、分かりやすい制限酵素のやり方で十分といえましょう。

というわけで、実際に遺伝子DNAを注文してみましょう！

全体の流れでいうと、2番の説明まで終えましたが、改めて1番に戻ってきた感じですね。

【大腸菌にタンパク質を作ってもらおう！】

1. 遺伝子DNAをゲットする！⇒済み！（今回はこのステップだけど）

2. そのDNAを、制限酵素とDNAリガーゼを使って、プラスミドに導入する（クローニング）！←今ココ

3. 使える形に加工したら、満を持して、DNAを大腸菌にぶち込む！

4. DNAがぶち込まれた大腸菌の選別！

5. 選ばれた「DNAがぶち込まれた大腸菌」をひたすら増やそう！

6. タンパク質合成のスイッチON！

7. 満を持して、目的タンパク質の収穫！

8. さすがにそのまんまでは大腸菌まみれで汚いので、キレイに精製しよう！

→見事、手元には大量の純品タンパク質が！やったね！！

各社遺伝子DNA合成サービスはいろいろ提供されていますが、今回は世界最大手のIDTでの注文画面を見てみるとしましょう。

前回も貼りましたが、注文フォームはこちら(↓)ですね。

www.idtdna.com

まずここ何回か見てきたことのおさらいで、どんな遺伝子を合成する場合でも気をつけるべき注意点をいくつか挙げておくとしましょうか。

使う予定（末端に付加する）の制限酵素サイト(＝認識部位)が、遺伝子の内部にないこと
制限酵素の足場を忘れないこと
（当たり前すぎるけど）コドンの読み枠がピッタリ合うように設計すること
トロンビンでタンパク質を切断する場合は、自分が作りたいタンパク質の内部に、トロンビン認識配列がないこと

どれももうスッと納得いただけるのではないかと思います。

(1)は、既に確認済みですが、DNAを注文する際には必須の確認事項ですね。

もし、遺伝子の内部に制限酵素認識部位が存在したら、端っこだけを切ったつもりが、そこでも切れてしまい、実験がメチャクチャになってしまいます。
（もちろん、1つの酵素で2箇所切れてしまっても、バラバラになった断片を両方回収して、全部まとめて改めてライゲーションすることも不可能ではありませんが、例えば内部にBamHIサイトがあってNdeI-BamHI-BamHIという切り口になる場合、右側半分の断片はどっち向きでもつながるし、それどころか右側の断片同士がつながってしまうこともあるしで、成功率は著しく低くなることでしょう。
　間違って注文して遺伝子DNAを手元に入手してしまった後でも、無駄に悪あがきしてがんばるより、注文し直す方が早いぐらいですね。）

(2)は、まぁこないだの図では3塩基にしていましたが、どうせ同じ値段なので、5塩基ずつ足してもいいかもしれませんね（もちろん、10塩基ずつとか足してもいいですけど、別にそこまで足場を取る意味も全くありませんし、長くなればなるほど合成に時間がかかる可能性もあるので、同じ値段だからって無駄に長くしない方がいいかもしれません）。

(3)については、プラスミドマップをよく見て、どこが開始コドンATGになっているのかをしっかり確認した上で（基本的に、rbsから一番近いATGが開始コドンとして使われます）、絶対に1塩基のズレもないようにしましょう。たった1塩基ズレただけで、全てが終わります！（逆に、3塩基ズレた場合は、「まぁOK」に戻りますが。）

基本的にNdeIのATGがコドンとして読まれる読み枠になっているので、そのままNdeI直下に遺伝子のコドンを続ければOKですね。

(4)のトロンビンは、これはまぁほぼ間違いなく気にしなくてもOKですけどね。

なぜなら、トロンビンは6アミノ酸認識（Leu-Val-Pro-Arg-l切断l-Gly-Ser）ですが、アミノ酸は4種類しかないDNAのヌクレオチドと違い、20種類ありますから。

つまり、偶然この並びのアミノ酸が発生する確率は、20の6乗で……これも3秒ぐらいで暗算余裕、「20の6乗」→「2の6乗 × 10の6乗」→（10の6乗が100万なのは、理系常識…ミリオンですね）→「(2の3乗)の2乗 × 100万」→「8の2乗 × 100万」…で、6400万分の1の確率ですから、たった207アミノ酸のソーマチンに出てくることはあり得ないでしょう。

実際、検索したら、最初のLV（＝ロイシン-バリン）の並びの時点で存在しませんでした。2つのアミノ酸の並びの時点で1/400の確率ですから、それすらいなかったということですね。

…ということで、以上の注意点をおさえた上で、実際の注文画面へ…といく前に、配列を改めて見ておきましょう。

こちらが、（以前も貼りましたが）ソーマチン遺伝子の、開始コドンATGから停止コドンTAAまでの全長配列です。

f:id:hit-us_con-cats:20210801054414p:plain — https://www.ebi.ac.uk/ena/browser/api/fasta/AB265690.1より

等幅フォントに変更したので、以前貼ったのよりやや見やすい感じでしょうか。

…と、これが全長ではあるんですけど、実は、以前も一度チラッと触れた通り、ソーマチンの遺伝子には、植物体内で合成された後に取り除かれる配列があり、植物体内で実際に「ソーマチンタンパク質」として存在しているのは、この内の一部になります。
（割と珍しいタイプではあり、入門編向きの話ではなかったですが、まぁ「そういうのもある」というちょうどいい例かもしれませんね。）

事実、この配列の名前も、「preprothaumatin」（プレ・プロソーマチン…「プレ」は「前」を意味する接頭辞ですね。「プレビュー」とかのプレです。なお、「プロ」も全く同じ意味の接頭辞、「プロローグ」とかのプロであり、ソーマチンは前後に不要配列がついているので、完成形の2段階前ということで、preとproの両方がついている感じなのでしょうか。）となっているように、こいつは真のソーマチンの配列ではないのでした。

具体的には、以下で選択した、67番目のGCCから687番目のGCCまでが真・ソーマチンですね。

f:id:hit-us_con-cats:20210801054835p:plain

植物体内で切断される部分は不要ですから、今回の実験でもそこは除外して、この67GCCから687GCCまでに停止コドンを加えた624塩基に、制限酵素サイト＋足場を加えたものを注文すると致しましょう。

というわけで、実はソーマチンの先頭アミノ酸は、開始コドンATGのメチオニンではなくGCC（アラニン）になっているので、「NdeIサイトにはATGがあるから便利！」とかは全く関係ない話になってたんですけどね(笑)。

あの熱弁は何だったんだ、って話ですが、まぁ、既に余分なアミノ酸が付く感じになってますし、メチオニンなしでタンパク質合成を始めるのは不可能ですから（もちろん、トロンビンで切ればなくせますが、その場合でも、トロンビン切断面のグリシンが先頭に来ますしね）、余分なメチオニンの1つや2つ、気にしなくても良いでしょう。

では、いざ、注文画面へ！

f:id:hit-us_con-cats:20210801054946p:plain

先ほどの選択部分の、頭とお尻に制限酵素サイトを加えました。

注文する前に、あまりにも合成が難しいものだと合成できないことがあるので、複雑性のテストをしなければならないようです。

TEST COMPLEXITYのボタンを押してみましょう、ポチッとな。

f:id:hit-us_con-cats:20210801055052p:plain

…って、あぁーっと！

まさかの、テストの結果はDenied（却下）、エラーメッセージが出て、この配列のDNAは注文できないぃーっっ！

なんと、複雑さスコアの合計が10を超えると、合成を受け付けてくれないようで、この配列のスコアは11.6…！

以前使ってた頃はここまで厳しくなかったように記憶してるんですが、恐らく、合成トラブルが頻発したのか、実際こないだ学生がgBlocksを注文したときも却下されていましたし、なぜか妙に基準が厳しくなっている気がします（いやでも、以前自分が注文したときは、たまたまパスしただけだったのかもしれませんが）。

しかし、「合成できない」といわれて注文できない以上、駄々をこねても仕方ないので、それに従うしかないでしょう。

具体的には、スコア9.6でこのDNAの注文受付を妨げている最大の原因は、理由1番目に挙げられている、

「338番塩基から始まる100塩基の枠内にあるGCの割合が77％であるため。65％未満にしてください」

というものですね。

以前の記事でチラッとだけ書いたことがあった通り、GCの割合が高すぎると（連続しすぎるのも良くないし、多少AかTが挟まっていても、今回のように一定枠内の割合が高すぎると）合成が難しくなることが多いので、ハネられる感じですね。

…が、もちろん、幸い打つ手はあります。

コドン表を思い出しましょう。

f:id:hit-us_con-cats:20210515060305p:plain — 見やすくまとまっていた、高分子学会の子供向け記事より

我々が欲しいのはタンパク質なので、多少DNAの配列が変わっても、同じタンパク質を合成できれば全く問題ないわけです。

特に、コドン3文字目は何でもいいことが多いので（しかも都合いいことに、最初の2文字がGかCのやつは、3文字目が何でも同じアミノ酸になるので、3文字目は何でもOKなのです）、「最初の2文字がGかCで、3文字目がGかCになっているコドン」の3文字目を、AかTに変えてやればいいんですね。

実際、改めてソーマチン遺伝子の文字列を見てみると、確かに、パッと見でも、GとCが多いなぁ、って思える配列でした。

ということで、コドンをいじりましょう！

…と、せっかくコドンをいじるなら、この話もしておくとしましょうか。

先ほど書いた「DNA合成時に、事前に気をつけるべき4点」の他に、必須ではなくやや上級者向けの話ではあるものの、気をつけておくといいことがもう1つ存在します。

それが、「大腸菌の中には、大腸菌自身があまり使うことがないため、それがあるとタンパク質合成が難しくなるコドン、通称レアコドンが存在する」という点です。

語るより見るが早しということで、「大腸菌レアコドン」で検索してヒットしたサイトに、レアコドンの表が掲載されていましたので、こちらをご覧ください。

f:id:hit-us_con-cats:20210801055747p:plain — https://m-hub.jp/biology/93/points-for-induction-of-protein-expression-by-pet-systemより

そう、特定のコドンは、大腸菌内での出現率が異様に低く、そういったコドンで指定されるアミノ酸は、まぁ1つぐらいならそこまで問題はないですけど、何個も続くようだと、タンパク質合成が遅くなったり、最悪止まったりすることが知られているのです。

なので、コドンをいじるついでに、レアコドンがもし存在したら、これらも修正するとしておくとしましょう。

コドンを修正するのは、どうするのがいいのかなと思ったんですけど、特別なソフトを使わずに、誰でもできて簡単手軽にできる方法は…と考えてみたら、まぁ普通にテキストエディタ（メモ帳）を使うやり方がベストでしょうか。

まぁメモ帳といっても、より具体的には正規表現の使えるエディタである必要がありますが、フリーソフトでいくらでも存在しますし、これに限らず正規表現の使えるエディタはとても便利ですから、1つぐらいインストールしておくのがオススメですね。

正規表現というのは、まぁワイルドカードみたいなもので、例えば「CまたはGを検索」「数字を検索（0-9どれでもいいから検索）」みたいなことを可能にする機能ですね。

そんなわけで、実際に僕がもしエディタで手作業で修正するならどうするか、の一例を紹介してみましょう。

こちら、正規表現の使えるエディタに、注文するDNA配列を貼り付けたものです。

f:id:hit-us_con-cats:20210801060053p:plain

まず、このままでは「コドンの読み枠じゃないもの」がヒットしてしまってややこしくなるので、コドン読み枠の部分に、3文字ずつ改行を挟んでみましょう。

ここで使えるのが、正規表現による置換ですね。

コドンの読み枠の部分を選択し……

f:id:hit-us_con-cats:20210801060151p:plain

「.」（ピリオド）が任意の1文字を意味する正規表現なので、「...」とピリオドを3つ並べ、これを（後で置換するときに使うので）括弧でくくって「1セットの塊」にしておきます。

そして、このピリオド3つを、「その3文字＋改行」で置換してやれば、3文字ずつ改行が可能になるわけすね。

＄1というのが「括弧でくくったセット（の1つ目）」、そして￥nというのが「改行」を意味する正規表現になります。

ということで、この置換（＝3文字を順番に、「その3文字＋改行」に置換）を実行すれば、こうなるわけです！

f:id:hit-us_con-cats:20210801060807p:plain

無事、3文字ずつ改行がなされました。

そうしたら、「レアコドンをつぶす」＆「全3文字ともCかGのものは、3文字目を修正する」としましょう。

まずはレアコドン表最初に挙げられていたArg（アルギニン）コドンですが、GCの割合を減らすべく、CGGとCGCの3文字目をAかT（RNAだとUですが、DNAだとTですね）に変えたいですね。

そしてどうやら、CGAも、赤字のレアコドン扱いではないものの、大腸菌全遺伝子に占める割合が著しく低いようなので、これももしあったら、変えるとしましょう（一応、注に、「このコドンがあってもタンパク質合成には影響ない」とされていますが）。

なので、「CGの次にAまたはCまたはG」の3文字を、「CGT」に置換したいわけですが、この検索条件の方は、正規表現ではCG[A|C|G]と書く感じになります。
（なお、正規表現はエディタによって多少違うこともあるので、お使いのエディタのマニュアルを読まれるのが確実ですね。）

検索すると、両方ともがしっかりヒットしています。

f:id:hit-us_con-cats:20210801061210p:plain

なお、CGAというコドンは全体を見渡してもヒットしなかったのでどうでもいい話でしたが、いずれにせよ、CG[AまたはCまたはG]を、一括で全てCGTに置換しておきましょう！

f:id:hit-us_con-cats:20210801061148p:plain

なりましたね！

この調子で、グリシンコドンのGG[A|C|G]をGGTに、プロリンのCC[C|G]は……どうやらCCGが一番メジャーなコドンのようなので、まぁこれはあえて変えなくてもいいでしょう、プロリンコドンはCCCのみをCCAに置換するとして、そして最後アラニンGC[C|G]は、レアコドン情報はないので、GCTにでも変えておきましょうか。

以上、全文置換を4回実行し、最後改行マークを削除（￥nを、空白（何もなし）に置換ですね）すれば、無事、GCを減らし、レアコドンもつぶした（IleイソロイシンとLeuロイシンのレアコドンは、幸い存在しませんでした）、注文用改変ソーマチン遺伝子の完成です！

f:id:hit-us_con-cats:20210801062849p:plain

最後、DNA文字列をいじったため、NdeIとBamHIの認識配列が内部に誕生してしまっていないかを、念のためチェックしておく必要がありますね。