マスを読む

タンパク質の配列の読み方として、前回エドマン分解なる上手いやり方で、端から順番にアミノ酸が読める手法を簡単に見ていました。

まぁ簡単に見たつもりが説明もグダグダで何だかんだ分かりづらかった気もするので(特に、どうでもいい試薬の名前のせいで、分かりにくさに拍車がかかっていたかもしれないため、新しい名前はなしにして)もう一度ごく簡単に触れておくと…

・読みたいタンパク質純品を用意し、特殊な試薬と反応させ、タンパク質の頭(最初のアミノ酸今さらですが改めて、タンパク質というのはアミノ酸がいくつもつながった高分子ですね)に、その試薬分子を結合させる

→さらに別の試薬で反応させることで、先頭のアミノ酸だけが、タンパク質からコロッと切れ落ちる

→タンパク質は装置に固定されているので、コロッと切れ落ちたアミノ酸を回収し、分析器にかけることで、何のアミノ酸かを知る!

→試薬反応⇒切断というサイクルを繰り返し、順番にアミノ酸を読んでいく!!

…という単純な流れですね。

「そんな先頭のアミノ酸だけを切るなんて都合いいことができるの?」と一瞬疑問に思えてしまうかもしれませんが、そういう都合のいい試薬を見つけたのがエドマンさん(Wikipedia、日本語ページはなし)で、その功績を賞し、彼の名前が反応名として残っているって形なわけです。

しかし、エドマン分解では、タンパク質の先頭から数十アミノ酸しか読めない&先頭が塞がっていたら読むことができない&読むために結構な量の純品タンパク質が必要といった弱点もあり、若干汎用性には欠けていました。

そこで、技術の発展とともにこの分野でも大きく台頭する技術が出てきまして、それが、恐らくどこかで名前は聞いたことがあるかもしれない、質量分析ですね!

英語ではMass spectrometryで略記はMS、日本では「マス」と呼ばれることも多いですが、ちょうどWikipediaの最初にも書かれている通り、 英語圏で「マス」と呼んでも通じないので、エムエスと呼ぶか、「メス・スペック」と呼ぶ方が良いでしょう。

こちら、なぜ「名前は聞いたことがあるかもしれない」かといいますと、この技術に関連して、田中耕一さんが2002年に関連技術でノーベル化学賞を受賞し、当時めちゃくちゃ話題になっていたからですね。

f:id:hit-us_con-cats:20210822063037p:plain

https://www.nobelprize.org/prizes/chemistry/2002/tanaka/facts/より

いやぁ~、でも、田中さんの受賞も、もう20年近く前ですか…。

今年成人する方とかは、物心付く遥か前の出来事で、全く知らないってパターンもあるんですねぇ。

田中さんが所属されているのが島津製作所で、前回「タンパク質分析といえば島津」と書いたのも、やはり田中さんがいらっしゃるからというのが、そのイメージを抱く1つの理由になっている気がします。

…って、↑のノーベル財団の公式ページの「Work」の説明文、Koichiro Tanakaって、名前間違えとるやん!

世界で最も権威のある賞での個人名の誤記とかあり得なさすぎて笑えましたが、修正されるといいですね。


田中さんが開発したのは質量分析計そのものではなく、質量分析を行うためのサンプル処理のステップなのですが、そもそも質量分析とはごくごく簡単にいうと「分子をイオン化して、電場の中でそのイオン化分子を走らせ、その移動度によってその分子の正確な質量を測定する」という2つのステップから成るもので、田中さんはそのイオン化のステップで大きく貢献をされたという形になります。

分子のイオン化にも色々あるわけですが、田中さんが多大なる貢献をして現在でも最もよく使われている技法はMALDIと略記されるマトリックス支援レーザー脱離イオン化法でして、マトリックス(特殊な化学物質)が分析したいサンプルを支援している所に、レーザーを当てて分子を強制的に脱離・イオン化させるという、ただ単語を羅列しただけで何の説明にもなっていない記述しかできない感じですが、例によって島津のサイトから図を拝借させていただきましょう。

f:id:hit-us_con-cats:20210822063105p:plain

https://www.an.shimadzu.co.jp/ms/axima/princpl1.htmより

分かりやすいっちゃあ分かりやすいものの、細部のメカニズムについてはこれでは正直何も分からないわけですけど、まぁ、「分からないことが分かった」という点で収穫はあったといえましょう(笑)。

そもそも僕も専門外なので、この辺の物性の動態についての詳細は解説できない感じです。

いずれにせよ、マトリックスがアシストしたレーザーのおかげで、解析したいサンプルの分子がイオン化され、気化して空間中を漂うようになる……と、そんな雰囲気で理解すれば問題ないと思います。

そして次のステップはイオン化した分子の検出ですが、MALDIと組み合わせてよく使われるのは、TOF(Time of Flight;飛行時間)と呼ばれるタイプの検出であり、全体の技法を総称してMALDI-TOF MSとか呼んでいます。

こちらは、一定距離の電場の中を飛ぶイオンの飛行時間は、質量(と電荷)に比例するという関係から生み出された技術で、簡単にいえば重いものほど遅いということですね。

こちらも、先ほどと同じ島津の解説記事にある連続画像を、分かりやすくアニメ化してみました。

f:id:hit-us_con-cats:20210822063257g:plain

https://www.an.shimadzu.co.jp/ms/axima/princpl1.htmの画像を1枚に加工

まぁ簡略化すれば案外簡単なものでしかないのですが、この仕組みを用いた分子の質量の検出は、信じられないぐらい正確&精密で、ごく微量のサンプルでも1分子あたりの完璧な質量が求められるわけです。


…と聞くと、「質量が求められる?質量って重さのことでしょ?重さが分かって、タンパク質の配列をどうやって知るん…?」というのは極めて自然な疑問になるわけですが、これは、データベースと比べることになります。

例えば、MALDI-TOF MSを走らせた結果、飛行時間から、611.35 Daという重さ(Daは、タンパク質の重さを表す単位で、まぁグラムみたいなものと考えればOKでしょう(正確には、分子が1モル個集まったときのグラム数と同等ですが))の分子が得られた……というような場合、データベースから、正確に611.35 Daと同じタンパク質を探して、全く同じものがあったら「これ」と判明する、という話になるわけですね。


しかしそうすると、「データと比較する?もし全く同じ重さのタンパク質が複数あったらどーする?!」と思えるわけですが、これは実際、これだけで判断するわけではないといいますか、もう少し詳しく見ることになるので問題にはなりません。

というのも、そもそも機器の限界で、何百アミノ酸もつながった巨大なタンパク質全体をイオン化して、飛行時間を計るということはできないのです。

そこでどうするかというと、まずタンパク質を酵素の力で断片化します。

以前、ソーマチンのクローニングの話で、トロンビンという、タンパク質を特定の位置で切断する酵素を紹介していましたが、そんな感じの「切断される場所が分かっているタンパク質分解酵素」を使うんですね。

トロンビンは-Leu-Val-Pro-Arg-Gly-Ser-という6つのアミノ酸が並んでいる部位のみを切る酵素なので、確率的にこんなものでは全然切れませんから(以前見ていた通り、20の6乗=6400万分の1の確率でしか出てこない)、もっとよく切れる酵素を使います。

一般的にマス解析のための前処理で使われるのはトリプシンという酵素で、こいつはリシン(Lys)またはアルギニン(Arg)のお尻側でタンパク質を切断します。

この結果、1アミノ酸あたり1/10の確率(20種のアミノ酸の内、LysかArg)でタンパク質が切断されますから、例えば200アミノ酸のタンパク質だったら、20個程度の断片に分かれるわけですね。

そして、トリプシンの力でバラバラにされた20個の断片の質量をそれぞれ分析することになるので、仮にバラバラになった1つの断片の中にたまたま無関係なタンパク質と重さが完全に一致するものが存在していても、その他の断片も完全一致することなどあり得ないので、「分析したのは、この特定のタンパク質である」と断定(推定)できるということですね。

言葉だけでは分かりにくいので、概念図を…と検索してみたら、神戸大学の吉野健一さん他のこの解説PDF記事がパッと見一番分かりやすく思えたので、こちらから抜粋させていただきましょう。

f:id:hit-us_con-cats:20210822063336p:plain

https://www.mssj.jp/about/pdf/awards/article/en/ms520106.pdfより

なぜか図の説明は英語だったので、日本語も付記しましたが、このように、データベースに登録されているタンパク質もトリプシンで(あくまで「コンピューター上で」ですが)断片化して(この例では、リシン(一文字表記K)の後ろのみで切断されているようなので、トリプシンではない別の酵素でのシミュレーションのようですけどね)、それぞれの仮想断片が理論上どの位置にマスのピークが来るかも計算して、そのデータと、調べたい分子を実測したマススペクトルとを比較する、ということですね。

「いや『データベースと比較する』って、登録されてる全タンパク質と比較するの?」と一瞬思えるかもしれませんが、これはその通りです。

ヒトの場合、ヒトゲノムプロジェクトにより、数万の遺伝子・タンパク質の情報が登録されていますが、その全てと比較するんですね。

かなりのマシンパワーと複雑な演算が必要になるプロセスですが、それぐらい余裕で可能なのが、現代のコンピューター・バイオインフォマティクスの力なのです。


ちなみに、先ほど例として611.35と書いていたのは、同じ吉野さんの記事の中にあったタンパク質解析の例として挙げられていた数字を使ったのですが……

f:id:hit-us_con-cats:20210822063754p:plain

https://www.mssj.jp/about/pdf/awards/article/en/ms520106.pdfより

この図で描かれているように、トリプシンなりで断片化した数アミノ酸の鎖(「ペプチド鎖」などと呼びますが)は、検出するときに更に断片化され(MALDIですね)、頭の1アミノ酸で断片化されたもの(b1と呼ばれる)から、お尻の1アミノ酸で断片化されたもの(y1と呼ばれる。同時に、b(n-1)(←6アミノ酸なら、b5ということ)という断片も生じる形ですね)まで、ぶちぶちに切れたものが同時に発生します。

これらを元に、上手いこと計算して元のペプチド鎖の配列を組み直し、更にトリプシン処理で生じたその他の断片のペプチド鎖の結果とも合わせて、元のタンパク質を推定していく、という流れですが……
…まぁその辺は話をややこしくしている以外の何物でもなく、全体の流れで意味のある話ではないので、深追いはやめておきましょう。


いずれにせよ、断片化したタンパク質の質量を知り、それを組み合わせて既存のデータベースと比較することで、タンパク質の配列を知ることができる、という話でした。
(ちなみに、データベースが存在しない場合、アミノ酸は20種類もあることから組み合わせに甚大なパターン数がありすぎるので、得られたマススペクトルデータから自力で配列を導き出すのは、絶対に無理ではないけれど、極めて困難な作業になります。
 なので、絶対に不可能ではないものの、現実的には、それはほぼ無限に近い演算が必要になって厳しいので、普通はデータベースと比較することになるわけですね。)


例によって、「既にデータベースに登録されてる物質の配列を読むって、そんなことして何の意味があるん?もう知られてるものなんでしょ?」って気がするかもしれないのですが、これは、つまりこういうことです。

こちら検索したらちょうどいい画像があったので、実際は全然違う実験に使われているものですが、例として説明に使わせてもらうと…

f:id:hit-us_con-cats:20210822064627p:plain

https://pubmed.ncbi.nlm.nih.gov/21686158/より

こちらは、タンパク質をゲルに流して染色した、SDS-PAGEの一例です。

例えばレーン2が、何か新しい薬なんかを与えた細胞から採取したタンパク質、そしてレーン1が薬を与えていない細胞から採取したタンパク質をゲルに流した結果だとしましょう(実際は全然違いますが、まぁ例えの話ですね)。

43 kDaの位置に、薬を投与した結果、薬を投与した細胞(レーン2)だけで、明らかに何かのタンパク質が大量に合成されています!

「一体何が合成されたんだ?薬を投与した結果作られたこのタンパク質が何であるか、知りたいぞ!」となる実験はたくさんあるんですね。

このとき、このバンドを切り出して、マス解析をすれば、無事、「全ヒト遺伝子データベース」から、このタンパク質が何物であるかを同定可能だ、ということなわけです(もちろん、この実験で使ったのがヒト細胞であるのが前提ですが)。

全長の重さは43 kDaで、各トリプシン断片の重さも完全一致するタンパク質なんて1つしかないでしょうから、薬処理/未処理でめちゃくちゃハッキリした差が存在しますし、まず間違いなく特定可能だと思われます。
(ちなみに、何もないように見えるレーン1の同じ場所にも、染色しても目にはほとんど見えていないだけで、実際は大量のタンパク質が存在しています。
 なので、比較対象として、レーン1の同じ場所も切り出して同時にマス解析を行い、「レーン1では見られなかったけれど、レーン2でいきなり大量に出現してきたタンパク質」がそれだと特定できるわけですね。)

ただ、マス解析はあくまでも断片化した物質を解析しているに過ぎないので、「この物質」と確実に100%断言することはできず、「99.○○%の確率でこれ」みたいな形で同定されます。

必ずしもトリプシン処理で発生した全ての断片が検出可能とは限らないので、データベースの全長タンパク質の内、一部の配列しか一致しないことがほとんどなわけですが、まぁそこは人間の判断ってことですね(複数の断片が一致し、合計サイズもデータベースと同じであれば、それはもう100%そのタンパク質だったと断言して構わないように思います)。


ちなみに、エドマン分解も、こうしてまずサンプルをゲルで流し、その後ウェスタンブロッティングのときと同様、膜にブロッティングして、その膜を反応させる形になります(前回貼った図にもそんな流れが記載されていました)。
(なお、細かいことですが、マス解析は、ゲルの断片(この場合、43 kDaの位置のバンドを切り出す)をそのままトリプシン処理して分析することが可能です。ブロッティング不要なので、そっちの方が楽ですね。)

タンパク質の配列解析にもやはり、ゲルでの泳動というのはよく使われる実験なのです、という話でした。


ということで、「マスを読む」というタイトルの割に、実際のスペクトル(棒グラフみたいな、ピークレポート)の読み方には一切触れず、流れだけを見る浅い解説記事となりましたが、マス解析の要点みたいなものについては、大体ざっくばらんとした概説ができたように思います。

そろそろソーマチンの話に戻りたいですが、もうちょい「物質の検出・同定」の話をしてみようかなとも思っています。

相変わらず気まぐれで続きを書いていく予定です。

にほんブログ村 恋愛ブログ 婚活・結婚活動(本人)へ
にほんブログ村