タンパク質を読む

DNAの配列→RNAの配列ときて、お次は当然タンパク質の配列になるわけですが、生体分子の流れがDNA→RNA→タンパク質であるのと同様、配列解析(シークエンシング)も、この順に一筋縄ではいかなくなる感じですね。

DNAはものの数時間もあれば1000塩基読むのも余裕ですが、RNAは直で読む上手い技術がないので、まずその配列を元に逆転写でDNAを合成してやり、得られた一本鎖DNAをさらに増幅する必要があるという、やや手間のかかるものだ…などという話を前回していました。

しかしその手間がかかるRNAも、DNAに変換さえしてしまえば、「取り込んだ蛍光ddNTPの色の違いで、検出されたシグナルをそのまんま読めばいい」という形の、誰が見ても分かりやすいシンプルな結果が得られるわけですが、残念ながらタンパク質はそうはいかないというのが今回の話になります。

その最大の理由というか原因としては、結局、DNAは自分自身を複製することが極めて容易であり、それからRNAも、よく「DNA→RNA→タンパク質」という流れで書かれるけれど、実は逆方向に戻すことのできる「DNA⇔RNA」という反応が存在する一方で、タンパク質は、自分自身をコピー元にして複製することができないし、RNA←タンパク質」という流れも決して存在しない、つまり遡ることのできない不可逆性のある反応になっているから、という2点に尽きるといえましょう。

もしタンパク質が複製できたら、20種類の蛍光分子(まぁそんなに沢山の数のはっきりと色の違う蛍光分子を集めるのも大変ですし、それも若干無理がありますけどね)をつけて、かつ片方の腕をふさいだアミノ酸(ちょうどDNAでいうddNTPのような)をつなぐことで、サイズごとに流してDNAのように配列を知ることもまぁ不可能ではないわけですが、残念ながら「タンパク質の配列を元に、同じアミノ酸を連結して複製する酵素」は、今のところ知られていません。
(見つけたり作ったりできたら、究極の大発見でしょう。…って別にあんまりいい使い道もないかもしれませんが。)

「タンパク質をRNAに戻す」という工程も、よく考えたら、あるアミノ酸を指定するコドンは重複(専門用語で縮重ともいいますが)しているので(例えばアルギニンのコドンは、CGN(3つ目のNはA, C, G, Tどれでもいい)・AGR(Rは「AまたはG」を意味する1文字表記です。AとGはプリン塩基と呼ばれる(何度か触れたことのある、プリン体のプリン)ため、puRineのRですね)の、合計6つのコドンが存在します)、一口に「タンパク質をRNAに戻す」といっても、どのコドンが使われてそのアミノ酸が取り込まれていたのかは、最早手がかりすらありませんから、RNA配列に戻したくても戻しようがないのは当たり前ともいえるわけですね。


そんなわけで、DNAシークエンシングのように、誰が見ても一目で分かる、配列そのもののシグナルがズラーッと並ぶような実験は、タンパク質のシークエンシングには存在しません。

とはいえ、人類は賢いので、複雑な手順が必要ながらも、アミノ酸配列を何とか読むことのできるテクはいくつか存在します。

その1つが、アミノ酸配列を読む古典的な手法といえる、エドマン分解

詳しい仕組みには立ち入りませんが、タンパク質の解析といえばやはり島津製作所が先頭を走り続けている印象があるので、島津の解説サイトから画像を拝借しましょう。

f:id:hit-us_con-cats:20210821062637p:plain

https://www.shimadzu-techno.co.jp/annai/h02-04.htmlより

…って画像が大分小さくて見辛い感じかもですが、細かい点は抜きに何が行われるかだけを見ておくと、まず調べたいタンパク質に、フェニルイソチオシアネートという特別な試薬(ベンゼン環のフェニル基に、窒素・炭素・硫黄が二重結合でつながっている、構造としては割と単純な分子ですね)を反応させると、タンパク質のN末端(ちょうどDNAに5'→3'という方向があったように、タンパク質にも方向があり、N→Cという順番です)に、こいつが結合します(図にあるように、カップリング反応の一種。名前はマジでどうでもいいですが)。

ここに、TFA(トリフルオロ酢酸…フッ素Fが3つつながった酢酸。酢酸CH3COOHが、CF3COOHになった分子ですね)といった酸化力の強い試薬を反応させて酸化してやると、都合のいいことに、N末端1つ目のアミノ酸だけがコロリと切断されてきます。

このコロリと切断されたアミノ酸を、ゲルならぬクロマトグラフィ(以前抗体検査キットの話でも出てきた用語ですが、それのめちゃくちゃ高機能バージョンです(検査キットのように、水が染み込んでいくのをボケッと待つのではなく、ポンプを使って高速で分子を移動させる感じ)。まぁ形状や呼び名は違えど、ゲルと同じように、これもサイズや性質に応じて分子を分離する操作ですね)にかけてやり、クロマトピークとして得られるデータから、最初に切られたのがどのアミノ酸だったかが同定できるわけです。
(図中央右の、「HPLC分析」とある部分の、グラフみたいなピークですね。ちなみにHPLCは、High-performance liquid chromatographyで、日本語でいうと高速液体クロマトグラフィーのことです。)

そして、残ったタンパク質にまたフェニルイソなんちゃらを加えて、2番目のアミノ酸をコロッと切り落として、HPLCで解析…ということを繰り返して、アミノ酸の順番、すなわちシークエンスが解析できるという流れですね。
(一連の反応を全自動化した機械が、島津から発売されています。)

島津の例では、L(ロイシン)→I(イソロイシン)→Q(グルタミン酸)→V(バリン)という4つのアミノ酸のクロマト解析の結果が表示されていますが(つまり4回反応を繰り返した時点の図ですね)、クロマトグラフィーでどのアミノ酸がどの位置に出てくるかは経験上分かっているので、それに応じて「このピークは…L!」と判断していく形なわけです。

なので、20種類のアミノ酸について、それぞれ大まかなピークの場所は分かっていることから基本的には自動で何のアミノ酸かが判別されていきますから(機械がクロマトピークを解析して、自動でアミノ酸を表示してくれる)、その意味では、「タンパク質を機械にかけたら自動的にカタカタカタッ…と配列が表示されていく」という、多くの方が想像していそうな配列解析の一種であるとも、いえるっちゃあいえるかもしれません。

しかし、酸で切断といった反応をするときに、必ずしもN末端のアミノ酸だけではなく、徐々にではありますが無関係な部分が分解されてしまうことも避けられないため、この反応では、サイクルを繰り返すごとに、徐々にノイズが増えていきます。
(図では、一番最初のグラフが一番ノイズが多いじゃん、って感じになっていますが、これは、1サイクル目以降は前のサイクルとの差分を取っているため最初だけ反応溶液中に含まれる化学物質の影響が如実に現れているためです。
 2サイクル目以降は、同じ試薬を用いているので、それが打ち消される形になっているのでよりキレイに見えるわけですね。)

なので、途中からは自動で認識されるアミノ酸ピークの信頼性が低くなっていくこともあり、結局目視で確認する必要も出てくることが多く、必ずしも未経験者でも読めるような単純な結果が得られるとはいえないわけです。
(クロマトピークの解釈には、クロマトグラフィーの基本知識が必要。別に何の知識がなくても、色を見れば順番が分かったDNAシークエンシングとは違うということですね。)

さらにその「ノイズが増えていく」性質のせいで、このエドマン分解による配列解析は、そんなにDNAのように1000塩基を一気に解読……どころか、3桁のアミノ酸すら、現状の技術では読むことが不可能となっています。

(上の図の注意点にも、「最長で約50残基を解析した実績があります」との但し書きがありましたが、逆にいえば最長でも50アミノ酸程度で、そんなに読めるのがむしろレアケースであるともいえましょう。)

そしてこの実験デザインから明らかですが(改めて上図の注意点にもあるように)、エドマン分解ではタンパク質純品、つまり1種類の分子しか読むことができません(複数あったら、タンパク質の数だけクロマトピークが出てきて、しっちゃかめっちゃかで意味不明になるため)。

もちろんその「複数分子の同時解析ガ不可能」といのはサンガー法でも同じであり、あくまで1分子の配列を読む上では別に問題ないんですが、DNAの場合は、加えたプライマーが読みたい部分を特異的にバシッと認識してさえくれれば、反応チューブ内のDNAサンプルの中に、無関係のDNAが混じっていても問題になりませんから、それよりは断然不便といえますね。
こないだの記事で「読まれる方のDNAも、完全に同一の配列のものでなくてはいけない」的なことを書きましたが、これは「プライマーが結合して伸長していく下流の部分」のことをいっていた話になります。
 プライマーがそもそも結合することのないDNAならば、いくら混ざっていても何の問題にもならない、ということですね。)


また、同じく注意点に挙げられているように、エドマン分解はN末端にフェニルなんちゃらを反応させるので、N末端が何らかの理由で塞がっていたら(何かの官能基が既にくっついているとか、N末端とC末端とがくっついて環状になっているとか、それどころか、以前何度か書いていた通り、タンパク質はアミノ酸がつながって合成された後グシャッと丸まる感じで特定の構造を取るので、N末端の腕はちゃんと反応できる状態で存在しているのに、構造を取った結果分子内部に隠れてしまっていたら、それもアウト)、配列を読むことが一切できなくなるという弱点も存在します。


…と、N末端つまりタンパク質分子の頭のほんのわずかなアミノ酸しか読めないN末端が塞がっていたらそれだけで読めなくなるという弱点もあるエドマン分解ですが、メリットとしては、反応を始めるためのプライマー的なものが一切必要ないので、完全に未知なタンパク質でも余裕で配列を読んでいけるというのが最大の利点として挙げられるかもしれませんね。

次回、もう一つ別の「タンパク質の配列を知る」手法に触れてみようと思っていますが、そちらは事実上既知のタンパク質しか読めないので、比べるとそこは大きな利点といえましょう。

しかし、何度か似たようなことを書いてる気もしますが、完全に未知なタンパク質を知りたいことなど普通の生命科学系研究ではあまりないため(もちろん、化学系の研究とかなら大いにあるかもしれませんが)、普通は「既存のデータベースと照らし合わせて同定する」ということが行われることもあり(そのためのデータベースとして、ヒトゲノムプロジェクトによるヒトの全遺伝子配列解明など、十分な質&量が既に揃っているのが、現在の最先端の科学なのです)、そこまでのメリットではないといえるかもしれません。

実際、エドマン分解は技術的な発展性が皆無(既に完成されてるともいいますが、恐らく未来永劫50塩基以上読めるようにはならないでしょう)なこともあり、今では日本だと島津製作所ぐらいでしか解析マシーンを作っていないという話も聞いた記憶があります。

その代わりとして台頭してきたのが、次回見る質量分析ですね。

詳しい仕組みについてはまた立ち入らない予定ですが、どんな感じのテクニックなのか、軽く触れていくとしましょう。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村