BLAST!

前回はいただいていたご質問の前半、1つ目に触れていましたが、「リプレッサーに結合したラクトースが分解されるというより、くっついたり離れたりしていると考える方がより適切に思われる」という点について、「ちょうどそこがあやふやで、追い質問をしよう思うちょったところやった。こじゃんとスッキリしたぜよ」というコメントをいただけていました。
(例によって、そんなエセ土佐弁みたいな文章をもらったわけではないですけどね(笑)。いい加減、適当方言変換も、ただ読みにくくなってるだけな気もしますが(笑)、まぁ一応コメントは非公開希望ということもあり、そのままの引用もアレなので適宜改変を加えている次第です。)

それではいただいていたご質問続きに参りましょう。

こちらの記事(スイッチのスイッチで厳重管理)で見ていた、オペロンのpETシステムへの応用に関しての話ですね。

 

Q2. まず、あの輪っかの図(プラスミドマップ)が、どいたち何のことかわからん苦手意識があるっていうか、さっきのラクトースオペロンがこのプラスミドにどう関係しちゅーかがちっともわからん。(まさに、得意の“つながらん”ってやつや。)  

そもそもなんやけんど、、プラスミドに入ったソーマチンDNAは、いつまでプラスミドに入っちゅーんやか?

そして、「最初のうちの菌の数を増やすフェーズ」っていうがは、あの実験全体フローでいう「5.」のことやか?

 

A2. プラスミドマップは確かに、初めて習った頃は意味分からんすぎて、僕も強い憤りを覚えてましたねぇ。

まぁでもこれも結局、プラスミドは環状の二本鎖DNAで、例えばpET-15bは5708塩基対でできてるわけですけど、A, C, G, Tがズラーっと並んでリング(しかも、一方は他方と逆向きの相棒鎖とペアを組んで二本鎖になっている)になっているのを、1文字ずつ書いて並べるのは大変すぎるので、分かりやすく丸い輪っかで図示しているだけに過ぎない感じです。

そして、丸い輪っかでがっつり簡略化表示はされているものの、何かの意味をもつDNA領域は、例えばpET-15bにはプラスミドを大腸菌にぶち込んだ後にサバイバルセレクションをするために使えるアンピシリン耐性遺伝子が乗ってますけど、「こっからここまでがアンピシリン耐性遺伝子」というラベルを付けてくれているという親切仕様なんですね。

正直そのラベルがごちゃっとしているせいで一見「うっ…」と思えるのですが、実際使ってみると、なるほどこれは必要な情報がまとめて表示してあって便利だね!…となるわけです。


とはいえこれもやっぱり、実際にもうちょい分かりやすい形で示してくれんと分からんて、という話な気もするので、改めてもうちょい丁寧に見てみるとしましょうか。

プラスミドに関しては、やはり世界最大のプラスミド管理・保管非営利団体であるAddgeneのサイトが、データ量も豊富だし、操作も直感的で分かりやすいといえましょう。

以前一度軽~く触れたこともありましたが、改めて、AddgeneのpET-15bデータベースにアクセスしてみますと、こんな感じの表示が得られます。

f:id:hit-us_con-cats:20211018064858p:plain

https://www.addgene.org/browse/sequence_vdb/2543/より

流石はAddgene、輪っかの図のみならず、5708塩基全部の配列(具体的な文字列)も、上部に載っけてくれてるんですね!

しかも、各ラベルをクリックすると、具体的に、その部分が文字列でいうとどこからどこまでなのかがハイライトされます(当然、これで実際の配列も分かるわけですね)。

例えば、アンピシリン耐性遺伝子をクリックしてみましょう。

f:id:hit-us_con-cats:20211018064941p:plain

「Ampicilin」をクリックした様子

このように、文字列がちゃんとハイライトされまして、ちょうど4640-5500番のヌクレオチドが、アンピシリン耐性遺伝子ということが分かるとともに、具体的な配列も一目瞭然なんですね。


ちなみに、僕自身習い始めた最初に思った疑問として、「何をもって『こっからここまで』って決め付けとんねん」って点があったんですけど、アンピシリン耐性遺伝子なんかの場合はこれは単純で、開始コドンから停止コドンまで、まさしくアンピシリン耐性を作るタンパク質(β-ラクタマーゼと呼ばれる酵素)のアミノ酸配列を指定している部分に他なりません。

このアンピシリン遺伝子は、矢印で示されているように、反時計回り向きに存在しています。

このpET-15bのマップは時計回りに表示されているので(別に向きに決まりはなく、たまたま開発元のNovagenが、その向きにオリジナルマップを表示したからそうなっているだけで、逆向きに図示すれば、当然アンピシリン遺伝子は表示されるDNAの向きと同じ向きに存在する遺伝子になります)、実際にタンパク質が作られる(アミノ酸がつながる)のは、表示とは逆向きのコドンが読まれていく感じで進むことになります。

つまり、先ほどの画像はちょうど4640番目付近が表示されていますが、ハイライトの始まり部分であるこの辺は実際は遺伝子のお尻にあたり、4640-4642番目がttaとなってますけど、逆向きに読むと(向きが変わると、文字もA⇔T、C⇔Gと相棒の文字に変わることに注意!)、taa、つまり停止コドンになっているわけですね。

開始コドンはATGですが、アンピシリン遺伝子ハイライト部終わりの5498-5500番目はどうなっているかというと、catとなっていることでしょう(=逆向きに読んだらatgになる)。

わざわざ画像は載せませんが、実際にそうなっていることはアクセスしてチェックされればご確認いただける感じです。


ちなみにこの「開始コドン (ATG) から停止コドン (TAA, TAG, TGA) までのDNA領域」をORF (Open Reading Frame) と呼んでおり、まぁタンパク質の読み枠のことですね。

なお、Addgeneでは、ORFと思しき「開始コドンから停止コドンまで、一定以上長い領域」は自動的にラベルされる仕組みになっているらしく、例えばマップでちょうど時計でいうと2時から4時ぐらいの位置にあるORF frame 2と水色になっている部分は、これはこないだ見ていたlacリプレッサー、lacIのORFになっている感じですね。

ただ、このORF表示は、マジで単に配列を元に自動的に付けられるもののようで、例えばORF frame1となっている右上にある水色矢印は、これはたまたまATGから停止コドンまで結構距離が開いていたからラベルされているだけで、実際はこの領域は何物でもありません。

ORFがあっても、スイッチ(プロモーター)がないと、DNAからRNAに変換されないので、当然、タンパク質も作り出されないという話です。

(逆にいえばもちろん、このORFの少し上にスイッチを適切に配置すれば、このORFで指定されるタンパク質が、大腸菌の中で合成されるようになります(恐らく、何の意味もないタンパク質ができるだけだと思いますが)。
 でも、実際はスイッチがないので、RNAにもタンパク質にも変換されることがない、無意味なORFである、ということですね。)


もう1つ、5時ぐらいの位置に反時計回りにある、これもなぜかORF frame 1という名前ですが、このORFも、たまたま「ORFっぽい」だけの、実際は何の意味もないラベルですね(Addgeneが勝手につけただけの、いわばミスラベル)。

で、左上にはアンピシリン遺伝子のORFが表示されているのですが、ん…?右下これも5時ぐらいの位置に、こちらは時計回りでORFが表示されていて、しかもこいつは赤字で、具体的な遺伝子名、tetという名称まで併記されていますね…。

tetというのは、アンピシリン同様、抗生物質であるテトラサイクリンの耐性を作る遺伝子のことですが、んん?pET-15bに、tet耐性遺伝子なんてなかったと思うけど…??

pETシステムの全てが掲載されているマニュアル(これも、世界中の有志がPDFファイルをアップしてくれていますが、目に付いた中で最新の第11版をアップしてくれていた、イスラエルはネゲヴ・ベン=グリオン大学のZarivach研究室のファイルのリンクです)にも、pET-15bにtet耐性遺伝子があるなどとは表記されていませんし、そもそも近くにプロモーターとかもないので、これは単なるAddgeneによる無意味な自動ラベルだと思いますが、こいつは一体何なんでしょうね…?

気になったので、ちょっと調べてみましょう。

見てみるついでに、もうちょいAddgeneサイトの使い方ですが、輪っか表記が見づらいという場合もあるので、マップは輪っかではなく直線に表示形式を変えることも可能です(Circular Map⇔Linear Mapを変えるだけ)。

そしてもう一つ、この機能は僕自身今まで意識してませんでしたが、余計なラベルは非表示にすることもできるんですね!

ORFはぶっちゃけミスばかりで邪魔なので、非表示にしちゃいましょう。

f:id:hit-us_con-cats:20211018065121p:plain

Linear Map表示にして、ORFラベルを非表示にした結果(気まぐれにGeneric featuresのチェックも外してありますが)

正直、線状マップの方が見やすいし、ORF矢印がいなくなって、随分スッキリしました。

 

ここで、tet遺伝子をハイライトして、DNA配列を丸っとコピーしておきます。

f:id:hit-us_con-cats:20211018065245p:plain

tet遺伝子をクリック

で、今回はご質問への回答・補足説明の記事のつもりでしたが、せっかくの機会なので、やや発展内容にはなりますが、「気になるDNA配列が何者か?…を調べるにはどうしたらいいか?」について触れてみようと思います。

この例に限らず、例えばDNAのシークエンシングを行って、謎の配列が返ってきた場合なんかに、「これは一体何なんだろうか?何かの遺伝子?」と気になることは多いのです。

そのときに使えるツールがこちら、その名もBLAST

blast.ncbi.nlm.nih.gov

BLASTというのは、Black Stonesのこと……ではなく、The Basic Local Alignment Search Toolの略らしいですけど、そんな呼び方をしている人はおらず、BLASTの愛称で親しまれているツールです。

「謎のDNAが得られた?とりあえずBLASTサーチにかけてみよう!」などという感じで使われますが、これは、「この世に存在するあらゆるDNAデータベースから、自分の気になる配列を検索して、ヒットした類似のDNAを、何%マッチするかとともに列挙してくれる」という、クッソ有能なソフトというかツールになります。

運営はNIH(アメリカの厚労省文科省的な、研究機関の親玉的存在)が行っているようで(以前は有志の研究機関が独自のアルゴリズムによるBLASTを公開していた気もしますが、データベースの増大とともに運営コストも莫大になり、今はもうほぼNIHのみが取りまとめて開発の継続や保守をしてくれるようになったのでしょう)、誰でも無料で使うことが可能です。


早速、先ほどコピーしておいた、謎のtet遺伝子をBLAST検索(BLASTはDNAのヌクレオチド配列でもタンパク質のアミノ酸配列でもできますが、ここでは当然ヌクレオチドBLAST)の検索ボックスに貼り付けましょう。

f:id:hit-us_con-cats:20211018065333p:plain

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastnより

上の入力ボックスにコピーした配列を貼り付けてありますが、数字やスペース&改行は無視されるので、めちゃくちゃな入力ですけど、そのままでOKです。

ちなみに、事前に一度実行したら、まぁこれはpET-15b由来の配列だから当たり前かもしれませんが、大量のプラスミドベクターの配列がヒットしてきました。

このDNA配列がプラスミドに入ってるのはもう知っていて、今は「そもそも何由来か?」ということを知りたいので、プラスミド配列は検索の邪魔になります。

なので、検索オプションとして使える、Organismの所で、「cloning vectors」を「除外する(exclude)」ボックスにチェックを入れて、プラスミドベクターはヒットしないようにしてみましょう。

結構検索に時間がかかりましたが(膨大なデータベースを探すので、配列によってはかなり時間がかかります)、検索結果はこんな感じ…!

f:id:hit-us_con-cats:20211018065457p:plain

Blast検索結果より

上から2つは「Synthetic construct」で、これもいわば合成人工物なので、「クローニングベクター」と分類はされていなかっただけでただの人工プラスミドみたいなものですからあんまり意味がなさそうなので無視すると、3番目に何かそれっぽいのがあります。

詳しく見てみましょう。

f:id:hit-us_con-cats:20211018065532p:plain

3番目の検索結果をクリック

入力した615塩基が100%全て完全一致していますが、こいつは何かというと、まさかの、Francisella tularensis!

……っていわれても何だよソレって話でしかないんですけど、検索したら、野兎病の原因となる、野兎病菌の学名とのこと!

ちなみに、先ほどの検索結果のGenBankというリンクをクリックすると、詳しい遺伝子情報を見られるのですが…

f:id:hit-us_con-cats:20211018065607p:plain

https://www.ncbi.nlm.nih.gov/nucleotide/NG_048174.1?report=genbank&from=677&to=1291より

特にタイトル以上の詳しい情報はなかったものの、このDNA配列は野兎病菌のゲノムDNA由来のもので、テトラサイクリンMFSトランスポーター(Tet(C))という、まぁ一応テトラサイクリン耐性に関わる遺伝子であることには違いないようですけど、しかしTet(C)の全てをカバーしているわけではない、半分程度(一応これは上記遺伝子情報ページにあった情報で、Tet(C)自体は396アミノ酸から成るとのことなのに、今調べている615塩基では205アミノ酸のみですからね)のものでしかなく、結局何やこれとしかいえない感じですねぇ。

この部分は恐らく元々pETシリーズを作るうえで元となったプラスミド由来の配列で、太古の昔、このプラスミドが野兎病菌に取り込まれて染色体ゲノムDNAに組み込まれることでもあったのか、それとも野兎病菌のゲノムDNAの一部を使ってプラスミドが発生したのか…?とか、正直どっちも「んなわけないだろ」としか思えない感じで全く何も分からない謎のままになりましたが、いずれにせよ、Tet(C)の半分程度しかカバーしていない形ですし、pET-15bのこの領域は、Addgeneは「tet」とラベルを付けていたものの、たまたまAddgeneのデータベースに「Tet(C)」で登録されていた配列と一致したからハイライトされているだけの、無意味なものには違いない感じですね。

初学者が混乱するだけですし(むしろ僕も混乱してますし)、こういう無意味なラベルはつけないようにしてほしいですねぇ…。


というか、個人的にはプラスミド名で検索すると大抵トップにヒットするし便利なんでAddgeneをよく使ってますけど、改めてよく見たら、プラスミド分析ツールの王者であるSnapGeneの方が、正直遥かに「正確・便利・分かりやすい」って感じだったかもしれません。

こちらSnapGeneのpET-15bのページ……

f:id:hit-us_con-cats:20211018065745p:plain

https://www.snapgene.com/resources/plasmid-files/?set=pet_and_duet_vectors_(novagen)&plasmid=pET-15bより

まぁ切断される制限酵素を大量に表示してくれているので、一見ごちゃっとしてますけど、これら大量にあるアルファベットは単に「その名前の制限酵素で切れます」ということなだけで、こんなのは無視していいというか、実際に制限酵素を使って切断したいときにはこれも結構便利な表示という感じですね。

そして、こちらのマップにはやはり、tetなんて遺伝子はどこにも記載されていません。


また、サイトデザインについてですが、下部のDNA配列は、二本鎖の両方が表示されているので、慣れない人にも非常に分かりやすい表示形式といえますね。

ちなみにもちろん、各エレメントにマウスカーソルを合わせると、そのエレメントの簡易説明も表示されます。
(図ではT7 promoterの説明チップを表示させていますが、「バクテリオファージT7 RNAポリメラーゼのためのプロモーター」という説明がされていますね。)

lacIやアンピシリン(AmpR)のプロモーターの場所まで正確に示してくれていますし、ぶっちゃけ、全体的に、SnapGeneの方がいいですね…。

余計な表示(無意味なORFとか)もありませんから、学習するには断然SnapGeneのプラスミドマップを見るのが良さそうです。
(ただ、扱ってる(公開されている)プラスミドの数が、Addgeneより断然少ないのがネックですね。そもそもSnapGeneは自分の手持ちのプラスミドデータを開くための有償ソフトウェアですしね。有名所のプラスミドマップの公開は、あくまでこのソフトの宣伝で善意で公開されているだけといえましょう。
 あと一応、Web版ではマップのエレメントをクリックしても、対応する文字列の方が自動でハイライトしてくれないのは、Addgeneの方が高機能な感じがしちゃいますね。)


…と、これで、何気にほぼ全てのpET-15bプラスミドのエレメントについて見終えたと思いますが、地味に1つ、全く見慣れないものがありました。

ROPという左下の部分、これは、公式マップにも表示されていなかったし、当初tetみたくAddgeneが勝手にラベルしてるだけなのかな?と思ったら、SnapGeneでもラベルされてましたね。

何気にこんなのほとんど意識したことがありませんでしたが、これはそのままROPという名前の63アミノ酸の小さなタンパク質で、oriの話で見ていた「コピーナンバーを制御する働き」で用いられる遺伝子とのことです。

まぁ、ある意味oriの一種ということで、プラスミドのコピー数維持に必要なので、クローニングでプラスミドDNAをいじくる際は、この部分は削らない方がいいという感じですね(tetの部分は、マジで何の意味もないただのプラスミド骨格由来なので、あれは削っても問題ないと思いますが)。


…と、プラスミドマップの話で異様に長くなってしまいました。

ご質問続きは、またしても次回へ続くと先延ばしにさせていただきましょう。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村