分かりにくかった点の補足その1(15兆本!他)

「こいついっつも補足してんな」と思われるかもしれませんが、前回も「世界一分かりやすいDNA配列解析の説明!」とデカく出た割に(いやそこまではいってませんでしたけど(笑))、蓋を開けてみたら結局今一つ痒い所に手が届いてない部分もあったため、その点改めて再説明をさせていただこうかな、と思った次第であります。

そもそも、とにかく説明が長ったらしすぎるので、「仮に分かりやすかったとしても、こんな大量の文字、よぉ読まれへんわ…」と思われる可能性が極めて高いという反省点もあるんですけどね。

まぁそこは、ごく丁寧に噛み砕いて書いているからそればっかりは仕方ない点として大目に見ていただいたとしても、やっぱり、経験者には当たり前でも、未経験者の方にはチンプンカンプンと思える点が散見されるという、専門家の驕り昂ぶりの現れた表現が随所にあったかもしれないという点は否めません。

ちょうど毎回丁寧で心のこもったメッセージをいただけるアンさんから、「惜しい所まではいけたのだが、あと一歩理解が追っつかない…」といった感じのコメントとともに、具体的に詰まったポイントも挙げていただいたのですが、そのどれもが「確かに、いわれてみたら、こりゃ説明不足が過ぎた!」と思える点ばかりだったので、いただいたご質問とあと適宜自分で作った想定質問も交えて、補足をさせていただくとしましょう。


Q1. DNA合成の最初の「取っ掛かり」がプライマーだというのは分かったが、これは、読みたいDNAの塩基数分だけ、もしくはそれ以上なければいけないということでよいのか?

A1. 完全にその通りです。もしプライマーが反応液チューブの中に例えば100本しかなかったら、最高でも「1塩基目で止まる」「2塩基目で止まる」…「100塩基目で止まる」という、100種類の断片しか生まれようがないので、600塩基ぐらい読みたいソーマチン遺伝子のシーケンシングの場合は、全然足りないということになりますしね。
(実際は、各塩基で止まったプライマーが都合よく1分子ずつ存在するというのはあり得ないので、1塩基目で止まったプライマーが40本、2塩基目で止まったプライマーが30本、3塩基目で止まったプライマーが10本…のように、100本のプライマーでは100塩基どころか数塩基しか読めないことでしょう。)

しかし、プライマーは反応液中に何千万本と大過剰量入れるので、プライマーの枯渇を気にしなきゃいけない場面は基本(というか絶対に)訪れません

確実に、余裕で全長カバーできる範囲(具体的には、サンガーシークエンスなら、1000塩基程度)以上のプライマーが存在しています。

せっかくなので、具体的な数字を見てみるとしましょう。

「サンガー法 委託」で検索したら、GENEWIZという、DNAシークエンスサービスを世界中で展開している業者での解析(の代理店的な業務?)をしている和研薬株式会社のページがトップに出てきたので、そちらの情報を見させていただきましょうか。

www.wakenyaku.co.jp

こちら(↓)が、上記リンクにある、「サンプルをGENEWIZ(仲介企業の和研薬社)に送るときのガイドライン」抜粋ですが… 

f:id:hit-us_con-cats:20210814064923p:plain

プライマーは、25 pmol(ピコモル)入れるよう指示があります。

これは高校化学の話になりますけど、モルというのは6×1023の分子のことなので(ちょうど「1ダース」が12個のものを指す単位であるのと全く同じように、「モル」というのも単に大きい数をまとめて読んでいるだけの単位です。ダースより、大きさの規模は全然違いますが)、ピコが10のマイナス12乗ですから、掛け合わせて、25×10-12×6×1023=1.5×1013、つまり、15兆本のプライマーを入れる必要があるという感じですね。

前回は適当に「何百万何千万」と書いていましたが、正確にはさらに桁違いの、15兆個のプライマーを加えているということで、誰がどう考えても超スーパーウルトラ大過剰量、1000塩基のDNAを読むのに、「なくなるのでは?」「足りないのでは?」という心配をする必要は、全くもって皆無なのでした。

(なお、「いや15兆個って…!」と思われるかもしれませんが、十数塩基のDNAなんて1本がめちゃんこ小さいので、この数のプライマーでも、実は何気に水に溶かしたら1マイクロリットルの水滴(0.000001リットル=0.001ミリリットル、めっちゃ小さい1滴)に余裕で含まれるぐらいの量でしかありません。
 数字のでかさにびびっていたら、逆に現物の小ささにびびるという、最早何のこっちゃよぉ分からんカオスになってるのが、ミクロな分子を扱う分子生物学といえるかもしれませんね。)

(だからそのために、何事も単位が重要なわけですね。15兆本(15000000000000本)のプライマーというと途轍もない数ですが、25ピコモルと言い換えれば(少なくとも見た目の数字は)非常に分かりやすいですし、0.000001リットルとかも小さすぎて桁取りをミスしちゃいそうですが、1マイクロリットルといえば非常に明快です。)


あと関係ないですが、ここを通してシークエンシングを注文した場合、下にある料金表を見ると、1サンプル650円ですか…。

まぁ大体そのぐらいの値段かな、って感じですが、やっぱり冷静に考えると結構高いですね(場合によっては、96サンプルとか一気に読む場合もありますし…。まぁその場合、複数注文での割引で、1サンプル350円に割引されるみたいですけど)。

ちなみに僕もアメリカのGENEWIZを使ったことがありますが、企業間の競争により気付いたら最安値ではなくなっていた&サポートが、正直、今一つ…ということで、今は別の会社のサービスを使っています。

といってもサンガーシークエンス以外の、次世代シークエンスなんかでは、同じ研究室の学生がこちらGENEWIZを使っていて、問題なく解析できているので、世界中でビジネスを展開している大手なだけあって一応しっかりしている感じではあると思います(やっぱりサポートは他の競合他社よりちょっと弱い気もしちゃうけど…)。


Q2. 「1塩基伸びて次でストップするやつ」にはじまり、最後の「1000塩基まで伸びて次でストップするやつ」とかまで、全部の種類の塩基でストップするように、確実に漏れなくジデオキシヌクレオチドが取り込まれるってこと…?そんなことできる…??

A2. そうです、できるのです、そう、サンガー法ならね。

まぁQ1とも関連している話というか一続きのご質問だったわけですが、「本当にそんな1000塩基もの長さにわたって、漏れなく1塩基ずつ別々の場所でストップするなんて可能か…?」と一瞬思えるんですけど、マジで、反応後は、1塩基目でストップ、1塩基目は普通に伸びて2塩基目でストップ、2塩基目までは普通に伸びて3塩基目でストップ…と、延々最後まで、あらゆる場所でddNTPが取り込まれてストップした断片が生まれるわけです。

昨日示した、実際のシーケンシングの蛍光ピークの図の通りですね(まぁあれは一部しか表示してませんでしたが、最後までキレイなピークが1塩基ずつ検出可能です)。

もちろん、dNTPがありすぎたら途中で止まるやつが少なすぎてほとんど延々伸び続けたやつばかりになり、逆にddNTPが多すぎたら途中で止まりすぎて何百塩基も伸びてくれるやつがいなくなる…という可能性はありますけど、そうならないように、dNTPとddNTPは、ちゃんと「伸びるやつもいれば止まるやつもいる」という絶妙な割合で混ぜられているということですね。

まぁそれ以前に、何せプライマーは15兆本ありますから。

1000種類の長さの違うものを生み出すのなんて、余裕のよっちゃん、ちょちょいのちょいなわけですね。

(また、ピークの大きさが場所によって若干違ったように、完全に同じ数の断片が得られるわけではありません。でも、検出可能なレベルの大きさ(数)の断片は、必ず得られます。何せ15兆ですから。)


Q3. DNA合成酵素は「材料のdNTPがあれば、どこまででもDNAを伸ばせる」とか書いてあったが、一方、シークエンシング反応では「大体1000塩基が限界」って、どういうことだ!?どっちが正しいんだよ!?

A3. これは先ほどの質問を読んでいてふと「こう感じる方もいるかもしれない」と思った自作想定質問ですけど、ddNTPを混ぜずに、dNTPだけでDNAを伸長すれば、普通に1000塩基を超えて、5000塩基だろうと1万塩基だろうと難なく伸長が可能です。

しかし、取り込んだら伸長が止まるddNTPを混ぜて反応を行った場合、ddNTPは無尽蔵に入れることはできませんから(上述の通り、入れすぎたら伸長が進まずすぐに止まってしまうものばかりになってしまうので)、恐らくその内ddNTPが枯渇してしまうのか(あるいは検出器の方の問題かもしれませんけどね。実際に何がネックで1000塩基が限界になっているのかは、僕はよく分かりません。しかし現実的に、もう何万回もDNAシークエンスを読んでいますが、必ず、1000塩基を超えた辺りから、まさに前回実際のピーク図を紹介していた通り、いきなりめちゃくちゃなシグナルになる感じです)、「『ddNTPを混ぜて、その後配列を読む』という実験では、1000塩基程度が限界だ」という話ですね。

Q4. いきなり出てきたdNTPとかの、TPって何だよ?!図ではdAって書いたり、Aだけで書いてたり、はたまたdNTPって書いたり、デオキシヌクレオチドと書いたり、ややこしすぎる!

A4. ついでにこちらもQ3に続き、書いてて自分で思っていたことで、説明が不足していたように感じるポイントですね。

まずデオキシヌクレオチドは、dA, dC, dG, dTの4つですけど、4つまとめてdNと書くことがある、というのは、前回既にちょろっと書いていた点でした(Nは、aNyのNです。any先頭のAは塩基のAがあるので、次のNが使われた感じでしょうか。まぁNって、「任意の」って意味で使われがちなアルファベットですし、ちょうどいい文字ですしね)。

つまり、より正確にいえば、4種類のデオキシヌクレオチドをまとめて表した書き方がdN、これを1つずつ見ると、デオキシアデノシンがdA、デオキシシチジンがdC、デオキシグアノシンがdG、デオキチミジンがdTと表されるものであって、DNAの文字列を図で書く場合、正確にはdAdTdGdG…と表記する方が正確なんですけど、見づらいにも程があるし、dを省いてもRNAと誤解する恐れがない場合は、dを省略して単にATGG…と書く、という形だったということですね。

…とここで、めちゃくちゃよく覚えてらっしゃる方ですと、「あれ?Aってアデニンじゃなかった?」と思われるかもしれませんが、確かにAという塩基の名前はアデニンなんですけど、これに五角形の糖・リボースがくっついたものは、まとめて「アデノシン」と呼ばれるようになるのです。

酸素原子がなくなる=デオキシになるのは、リボースの部分でしたから(2'番の炭素についてるOH)、「デオキシアデニン」というのはおかしいのでそう書くことはできず、アデニンにリボースがくっついたアデノシンの、リボース2'番炭素の酸素が欠けた結果(言い換えると、アデニンにデオキシリボースがつながった結果)、「デオキシアデノシン」になるわけですね。

(つまり、アデニンが塩基で、これにリボース(糖)がくっついたものはアデノシンと呼ばれるようになり、これが一般的にヌクレオチドと呼ばれる分子だということ。
 名前の変化は、Aアデニン→アデノシン、Cシトシン→シチジン、Gグアニン→グアノシン、Tチミン→チミジンですが、覚える必要は一切ないでしょう。書くときも、アルファベットしか使わないですし、ぶっちゃけヌクレオチド(糖+塩基)のことを「アデニン」と読んでも通じますしね。)


そしてdNTPのTPの部分ですが、まず、これも以前ちょろっと触れた通り、各塩基はリン酸とOHが結合することでつながっていく形になっています。

なので、その結合に使うためのリン酸基Pが、DNA合成(連結)のときに取り込ませるヌクレオチドにはあらかじめ付けられていて、まず「P」というのはそのリン酸のP(phosphate)ということですね。

そして、DNA合成酵素はデオキシヌクレオチドにリン酸が3つもつながったものを連結の材料に使っています(リン酸結合は反応を進めるエネルギーとしても使える優れものであり、3つつながったリン酸結合を切ったときに生まれるエネルギーで、そのヌクレオチドをDNA鎖につなげているんですね)。

つまり、簡単に書くならDNA合成酵素が使うのは「P-P-P-dA (とかdCとか)」という形で、最初の2つのPとdAにつながってるPの間を切って、-P-dAをDNA鎖のお尻に連結していくわけですが(お尻の塩基がdTだったとすると、「dT-OH + -P-dA」で、「dT-P-dA」となるということ……ややこし過ぎる話なので、よぉ分からんかったら忘れてください)、この「P-P-P-dA」という分子のことを、Pが3つということで、3を意味する接頭辞triがついて、dATPと書く(4種類まとめて表すなら、dNTP)、という話なのでした。

だから、前回の図では「dAが取り込まれる!」とか書いていたのですが、実はより正確には「dATPが取り込まれる!」の方が正しい表記ではあったんですけど、でもしかし取り込まれた後はdAになるし(といっても、本当はリン酸が1つ残るので、さらに正確に書くならdT-P-dAみたいな形なんですけどね)、TPの部分の説明も面倒くせぇし…ってことで、まぁその方が分かりやすいっしょ、ってことで、割と適当に書いていた感じになります(笑)。

ちなみに、さらにややこしくどうでもいい話になりますがせっかくなので触れておくと、ヌクレオチドという用語をいつも割と気軽に使っていたんですけど、厳密には、「ヌクレオチド」というのは、「糖・塩基・リン酸1つ」がつながったものを指す言葉になっています。

なので、「4種類のデオキシヌクレオチドの中の1つに、アデニンとデオキシリボースがつながったデオキシアデノシンというのがあってぇ…」という先ほど書いていた説明は厳密には間違っていて、「糖と塩基」までしかない部分は、実はヌクレオドと呼ばれる物質になっています。

最初教材でこの名前を見たとき、「ぷぷっ、ミスタイプしてやんの。何だよヌクレオシドって(笑)」とか思ったんですが、実は「糖・塩基・リン酸」がつながったものはヌクレオチドですけど、「糖・塩基」のみがつながったものは、ヌクレオシドと呼ばれる物質だったのでした。

つまり、「ヌクレオシド一(いち)リン酸」=「ヌクレオチド」であり、先ほどの説明は、本当なら「4種類のデオキシヌクレオドの中の1つに、アデニンとデオキシリボースがつながったデオキシアデノシンというのがあってぇ…」と書かなければいけなかった感じですね。
(でも、意味は伝わるし、「ヌクレオチド」の方が何となくなじみがある言葉ですし、そもそも実際DNAに取り込まれているのはリン酸つきのヌクレオチドですから、先ほどの説明も、「さらにリン酸もついているのは暗黙の了解的な感じで、まぁえぇやろ」とも思えちゃいますけどね(笑))


…ということで結論としては、日本語で書くなら、dNTPデオキシヌクレオチド三リン酸(もっと厳密に正確には、デオキシリボクレオド三リン酸かもしれませんが、まぁリボースはいて当たり前というか「ヌクレオチド」という単語に含まれているともいえるので省略可で、「チ or シ」も、厳密にはヌクレオチド=リン酸1つのもののみを指す言葉のですが、慣用的にはリン酸基が複数ついていてもヌクレオチド呼びすることが多く、「ヌクレオチド三リン酸」も間違いではないように思います…というかむしろ、そっちの方がよく使われている気も…?)のことで、一方、ddNTPは、ジデオキシヌクレオチド三リン酸(dideoxynucleotide triphosphates;Nは本来anyのNだけど、ヌクレオチドのNと考えてもいいかもしれませんね)を意味する言葉です、ということでした。

まぁややこしすぎるし、実際厳密なことは無視して、雰囲気で伝わるように書いてるので、雰囲気で都合よく察してください、という適当極まりない話かもしれません(笑)。

…と、ここまでは前置き、ジャブみたいなもので、実はいただいたご質問の本題はここからで、まだ本筋にすら入れていないのですが、やはり何ぼなんでも最近記事が長すぎるので、続きはまた次回にまわさせていただくとしましょう。

次回、補足その2・「ゲルとは何?他」、お楽しみに~!

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村