地平線の彼方で

Biochemist & Structural Biologist
治療中
興味のあること: Proteinase, protein engineering
ちなみに地表からみえる地平線は所詮4000mほど先で,滑走路並みに近かったりする...(C) 2007-2019

構造解析101-8 DNAにだって変異を入れてみる

暗い話はともかく,
結合する理由があれば,結合しない理由もきちんと存在する.

元に戻ってPDB:4evvをみてみる.

4evvはG:Tミスマッチ,G:Uミスマッチを塩基除去するグリコシラーゼで(結晶構造はE-to-Qで活性中心を潰している.でないと結晶中であれ反応するため),あの2009年の加藤研から発表された5mC (メチル化シトシン)を除去する(N1-C1'のグリコしディック結合を切断する)と捏造までされてしまった不運な酵素になる.ー2014年の生物物理のどこかに日本語で2ページで解説しているのでそれを詳しくはそちらを参照


mbd4


実際は,そんな活性は全くないことをin vitroで調べている.

なぜ活性がないのか?


Pymolを開いて,4evvをdownloadする.
そして,A(ction)-->present-->technicalで水素結合を表示してみる.

chain CのDT17を中心に持ってくると,フリップアウトした基質となるチミンが4つの水素結合によって認識,結合していることがわかる.

Screen Shot 2019-03-16 at 19.45.02


このチミンの原子の名前を表示するために,atom nameを表示してみる.

まずチミンを選択して,(sele)の欄のL(abel)-->atom namesから表示する.

原子の名前はアミノ酸の場合はCα(主鎖)から側鎖へはベータ(β),ガンマ(γ),デルタ(δ),イプシロン(ε),ゼータ(ζ)と名前をつけていく.リジンならCB, CG, CD, CE, NZというふうに (ギリシャ文字は表示できないのでアルファベットで代用)

ヌクレオチドはグリコシディックボンドをN1, C1'として,塩基は,N1, C2, N3, C4, C5, C6という風に,チミンの場合はC2と共有結合をしているO原子はO2, C4と共有結合しているO原子はO4, C5と共有結合しているメチル基はC7という風に名前がつけられている.

シュガーはC1'というように’(プライム)をつけて,O2', C3', C4', C5', O5', OP1, OP2, という風に名前をつける決まりになっている.3'とか5'はそこから来ているあれね.(ダッシュといっても英語では通じないのでプライム)

Screen Shot 2019-03-16 at 19.57.59




そこで,チミンからウラシルに変えてみる.

ツールバーのWizard-->mutagenesis -->nucleic acids
をクリックしてno mutationからウラシルに変えてみる.

オッケーならApplyをおす.ことを忘れずに

そうすると,配列のDTがDUに代わり,チミンのメチル基が水素に代わり,ウラシルに変化していることがわかる.Screen Shot 2019-03-16 at 20.01.58


さらに,実はメチル化シトシンはPymolには用意されていないので,cootを使う必要があるけれども,シトシンで代用する(本来メチル化シトシンはH5のところがCH3がくる).

そして,A(ction)--> present -->technicalで水素結合を表示してみる

Screen Shot 2019-03-16 at 20.06.50


シトシンのN4とVal422の主鎖のNとで極性が同じため,シトシンのN3とGln423のOE2とで極性が同じため水素結合できず,反発してしまうので,ポケットに入ることはない.メチル基はこの場合モデルされていないけれども,メチル基はあまり重要ではない.


その仮説はin vitroの実験で証明された.


もし,5mCを塩基除去するというのであれば,どのような理論なのかぜひ説明してもらいたいということになる(リトラクトされているのでそれ以上意味がないけれども...


それはともかく,

こうだから結合するということを言えるなら,逆に,こうだから結合しないというところまでいうことができる.これこそが理解するという一歩になる.





こういった理論はある意味極限まで追い詰めてしまう危険性がある.
~の可能性があるんじゃない?というところで終わるのではなく,それはない.と断言できるレベルに(全てのものではもちろんないけれども,いくつかは),言えてしまう.




Natureのeditor達もKim et al., 2009 Natureの論文を渋っていたリトラクションも,僕の原稿を見ればそれ以外の道はなくなってしまった訳だし...別に誰かを陥れようとしているのではなく,ただ,曖昧だった理論や,アーギューいずれは結晶解析によって曖昧だったことが断言できるレベルに解析されていく確率が高いわけで...

僕が解析することでやぶ蛇になったのは申し訳ないと思うけれども,それは全く見ず知らずの人に...とはあんまり変わらないか...おそらく受け入れるには時間がかかると思うので...
そのために重要な知見をまとめた部分が無駄にならなければいいと思う.論文の投稿は当分無理になったな...




もちろんAIDのようにDNAか?RNAかというようなことはね.
清水先生の2002年だったっけ?のscienceの論文を思い出した...政治なんだって...

ほんと,すこし疲れてしまった.

構造解析101-7 水素結合の表示と変異を入れてみる.

このあたりから若干難しくなってくる.
(書いてある通りやればできるので問題はない.


構造を見て,見えているものは本当???という根本的な疑問を解決するには,そこに変異を入れてみるのがいい.患者さんから見つかった変異はどういう問題が起こるの?という予測さえ可能となる.



その前に,見えている2FoFc electron densityは本物???っていうのは,omit mapを計算する(後ほど)ことが必要であったりするけれども,それは別の話.


根本は,そこに変異を入れてみて,結果を予測する.そして,実験で確かめる.
ということになる.



まずどのアミノ酸に注目するか?
いろいろな方法があるけれども,
1. ガン細胞のデータベースを見てみる.http://www.cbioportal.org/
2. 論文を読んで興味のあるアミノ酸変異を自分で調べる.
3. 自分で見つけた変異に注目する.
4. 構造解析から重要なアミノ酸を見つける


といろいろある.

ということで4の構造解析から重要なアミノ酸を見つけるという難題に挑戦する.




用いるのはp53とDNAとの複合体の構造,前回紹介したPDB: 5MG7を使ってみる.
前回を参照して,pymolを開き,PDB: 5MG7のデータをgetして,さらにA(ction)--> generate-->symmetry mate within 4Aからテトラマー状態にしておく.

必要のないsymmetry mateはタブをクリックして表示しないようにしておく.


Screen Shot 2019-03-16 at 12.32.09



そこで,水素結合を表示してみる.
その前に,まず2つのタブを1つのものとして認識させる.
A(ction) -->copy to object --> 5mg7

とすることで,それらの分子内の水素結合を表示することができる.
表示される水素結合は,分子内のみなので,シンメトリーの分子も1つにまとめておく必要がある.


そして,5mg7のA(ction)-->present-->techincal

をクリックすると,黄色の破線:すなわち水素結合が表示される.
水素結合の距離はおよそ3Åの距離になる.

また,表示方法がCartoonからwire linesになるので,S(how)-->Cartoonとして表示すると理解しやすくなる.色はお好みで.(デフォルトはN末端:青からC末端:赤に色付けされている)

Screen Shot 2019-03-16 at 18.08.30



さて,どこを見ていこうか?となるときに,1番目につくのは基質との相互作用.この場合はDNAになる.

右下のS(equence)をクリックしてSequenceを表示して,R280を真ん中ボタンクリックして,中心にを移動して拡大,真ん中ホイールを回して,Zスタックを薄くしていくと次のような絵になる.

つまりArg280はグアニンを2つのH-bondsで認識,結合していることがわかる.さらにそのグアニンはペアとなっているシトシンとも3つのH-bondsで認識,結合していることがわかる.
さらに,そのArg280は近傍のAsp281によって安定化されていることがわかる.

つまりAsp281に変異を, Asp281-to-Alaに入れたらArg280の認識が不安定になるということが予想できる.

ちなみにL(abel)-->residuesでラベルを表示することができる.

Screen Shot 2019-03-16 at 18.15.38






もっと深い理解が必要な場合もあるけれども,それは構造解析のプロが絡む解析になる.

構造解析101-6 揺らぎを表現する.

分子は,ブラウン運動をしていたりするので,基本ダイナミックで,その動きの一部を切り取ったものが結晶構造になる.

結晶のデータはクライオ中で取得するので,-197℃,すなわち100 K (ケルビン)なので,絶対温度ではないので,原子は活動している.

なので,揺らいでいるのは普通だし,リジットな構造を常に維持しているということにはならない.
とはいうものの,安定化している部分はそう簡単にdynamicに変化することはあまりないけれども,これらは,ほんの1面なので,実際に解析して立てた仮説は仮説に過ぎないので,それを実験的に証明することが必要になる.もしくは実験で得られた結果の一部を結晶構造を用いて説明することができる.

何れにしても完璧ではないので,そういった情報を知ることが必要になる.

それがB-factor (温度因子)で,単位はsquare Åになる.原子の位置は化学的,物理的に制限を受けているので全くもって自由ということにはならない.原子間距離は制限がつくのでcubicではなくsquareになる.


今回はPDB: 3Q05を表示してみる.
PDBと2fofc mapをgetして,表示してみる.


Screen Shot 2019-03-16 at 13.22.58



そして,3q05のタブのC(olor)-->Spectrum-->b-factorを選択するとカラフルな表示になる.
Screen Shot 2019-03-16 at 13.25.16



青色がlow b-factorで赤色がhigh b-factorになる.
b-factorは同じ結晶構造内のみで比較ができるので,異なる結晶間での比較はできない.解像度も違ったらフェアじゃないでしょ?ってこと.

そうすると,赤色の部分がかなり多いモデルであることがわかる.
このhigher B-factorはなにに関係しているのか?

3q05のshowからlineを表示し,3q05_2fofcから2fofc mapを表示して青色に(別に何色でもいいけど)

そして,この画面で言えば上部のDNAの末端部分をマウスの真ん中ボタンクリックして中心部にもってきて,右クリックを押しながらマウスを動かして拡大.さらに真ん中ホイールを回転させてZスタックの厚みを薄くしていくと次のような絵になる.

Screen Shot 2019-03-16 at 13.29.26


そうすると,緑の部分(Lower B-factor)の部分は2FoFc electron densityがオーダーした状態でみえているけれども,赤色の部分(Higher B-factor)の部分は2FoFc electron densityがdisorder もしくはbroken densityになっている.


つまり赤色の部分は結晶内でdynamicな部分であることがわかる.
さらに,モデルされているけれども,densityが存在しないということは,そういう部分を一生懸命解析しても,あまり意味がないということになる.そこはdynamicですという以外には言えない.



ただし,それは溶液中でもdynamicだからなのか?結晶中のアーチファクトだからdynamicなのか?

それは自分で考えないといけない.


ヒントとして,この場合はアーチファクとであると考えられる.理由はsymmetry related moleculeをみればわかる.ちょうどDNA-DNAが結晶構造上スタックしている部分であり,結晶化の過程において無理な構造を取ろうとしているのがわかる.DNAの末端を見ればわかる.

こういうのは結晶中だから無理やりな構造を維持しようとしているので,溶液中ではそのようなDNA末端構造は通常ではとり得ない,ましてや,DNA末端がほぼ存在しないゲノム上では存在しない形になっている.

だからおそらくアーチファクとであると考えられる.

これは仮説なので,仮説は証明されなければならない.
もしくは,discussionのレベルになる.

正しいか間違っているかは実験をして確かめる.




ただ単に眺めているだけではダメだということがわかると思う.
自分で手を動かして,観察して,頭を動かす.



構造解析101-5: 近傍の分子を表示する

結晶の内部は,ユニットセルという1つのユニットの3次元方向(h, k, l)で永遠に広がる繰り返し構造になっている.

なので,構造モデルはすべての平均をとったものが表示される.
たとえば,モノマーやヘテロダイマーであれば問題のないケースがほとんどだけれども,


ホモダイマーの時は,結晶学上,それぞれの分子を重ねることがある.biological unitとは別にして.つまり,シンメトリーの軸がモノマー,ダイマー,多量体に存在する時,それらの構造はモノマーからダイマー,もしくはそれ以上に展開して解析する必要がある.


たとえば,5EYO
これはMycとヘテロダイマーを作るMaxの,MaxのホモダイマーとdsDNAとの複合体のモデル.

Screen Shot 2019-03-16 at 12.17.22


本来あるDNAがsingle strandであったり,本来あるダイマーのMaxがモノマーに見えていたりするのは,中心に180度の回転軸が存在するからで,


5EYOのタブのA(ction) --> generate --> symmetry unit mates --> 4 Aをクリック



そうすると,近傍の分子を(symmetry related molecules)を表示することができ,dsDNAをみることができる.5RYOのタブと,5EYO_010000000 をクリックして表示すると,biological unitであるホモダイマーとdsDNAの複合体構造モデルを作ることができる.

Screen Shot 2019-03-16 at 12.22.33


さらにいえば,上のdimerと下のdimerは完全一致していないので,上下間で対称性が崩れている.なので,上下,2つの分子が表示されていることになる.

これらは結晶構造解析のなかで,space groupの問題で,biological unitとは独立している.



他にも,PDB: 5MG7のような,シンメトリーの軸がDNA上に存在するケースであるp53とDNAとの複合体構造のものものでも,パッと見で,


”結晶構造がおかしい!!”


とかいうのではなく,それはsymmetryの軸がDNA上にあるので,結晶構造を決定するときのルールに基づいて解析が行われたためであって,symmetry matesを表示すれば満足していただけると思う.


Screen Shot 2019-03-16 at 12.28.30


Screen Shot 2019-03-16 at 12.32.09





いろいろネットで調べれば,Pymolの使い方とか解説されているところもあるけれども,それらは操作の仕方であって,実際に何をすれば自分の知りたいことを知ることができるのか?というところまで解説されていないのは残念.

理解するというのは,操作方法を学ぶということではないので,実際にどこをみるのか?どうやって理解するのか,biochemist / structural biologistである僕が何を考えているのか,すこしでも構造解析に親しみを持ってもらえればいいなとおもっている.しかも,日本語話者の人々にとって.

構造解析101-4: データーをダウンロードする

データの全体のクオリティーをチェックすれば,その次は個々の原子の位置のクオリティーのチェックになる.



つまり,どんなにHigher resolutionの構造であっても,ふらふらしたループの領域などは,結晶内のすべての分子の平均像を見ると,electron densityが見えない.


さらにいえば,見えないというのは,結晶中にプロテエースで消化されたのか?それともふらふらしているだけで見えていないのか?結晶構造を見ているだけではわからない.

SDS-PAGEをするか,Mass specでみるとわかる.
SDS-PAGEをするなら,そこそこの大きさの結晶を4つ,5つぐらいを拾ってLoading bufferに入れて半分流すと十分クーマシーで染めることができる.
必要ならば,バンドをgel extractionしてmass spec

結晶は大量のPEG, Ethylene Glycol, Glycerolなどの溶媒中に存在しているのでかなり洗わないとそのままmass specは難しい.



本題:pymolを開いてみる.
(Macでの使い方なので,windowsでもpymolを開いてみる.Youtubeを参照)





terminal (application --> utility --> terminal)からpymolとタイプすると開く
linux / unix systemなので,⬆︎⬇︎のカーソルキーを押せば,前回にタイプしたものを呼び出せる.
Tabをおせば,ファイル名などの入力補助ができる.


Screen Shot 2019-03-16 at 09.40.46



上のバーからFile -->Get PDBをチェック

Get PDB Fileのウインドーが開くので,
PDB:IDを入力,
2FoFc MapとFoFc Mapにチェックを入れる.(object nameは必要なら適当に名前を入れておく

そしてDownload ボタンを押すと,数秒でダウンロードが完了する.


今回は4evvを入れてみる.
(モデルの検索方法は前回を参照)




ちなみに
2FcFc Map, FoFc Mapとは何か???
X線を使った構造決定方法は,直接分子の形をみることができないので,X線回折という方法を用いる.そのX線回折実験の結果にあうようなモデルを作っていったものが構造モデルになる.
そこで,基本的には2つの独立した計算をして,モデルの正しさをみることができる.



FoはF observationで,FcはF calculation

Fo(実験)とFc(モデル)がほぼ一致すれば
2x Fo - Fcをすれば,FoもしくはFcになる

Fo - Fc = 0になる.

なので,2FoFc Mapがモデルに近いマップであればOKで,FoFc Mapがゼロならおっけー


Fc は平均値を見ているので,モデルされているけれども,2FoFc Mapをみれば欠けている部分があったりする.これはその原子が揺らいでいるということになる.そういった部分はhigher B-factorになっている.(後ほどB-factorは解説)




Screen Shot 2019-03-16 at 09.45.49



まずは,基本的な使い方に慣れてみる.

マウスの左クリックを押しながら,マウスを動かしてみると回転(Rotation)する
マウスの真ん中ボタンを押すと,そこに中心が移動する.
マウスの真ん中ボタンを押しながら,マウスを動かすと,分子が移動(Move)する
マウスの右クリックを押しながら,マウスを移動すると,拡大,縮小(Zoom)する
真ん中ボタンのホイールを回転させるとZスタックの厚みを変えること(Slab)ができる

これらの使い方は右下のMouse Mode 3-Button Viewingというところに説明がある.


さらに下の"S"をクリックすると,アミノ酸配列,DNAの配列が上部に表示される.


初期設定ではSelecting Residuesとなっているので,
分子上,もしくはシークエンス上で右クリックをするとそれらが選択され,真ん中クリックすると,選択した部分が中心に持ってこられる.


Selecting Residues 上を右クリックすると選択の範囲がResiduesから, chains, Segments, Objects, Molecules, C-alphas, Atoms, Residuesと選択する領域を変えることができる.

そして,一旦選択すると,選択したものにたいして新たなタブ,(sele)というものが出てくる.
注意しなければいけないのは,何もない空間を右クリックすると,選択したところがキャンセルされる.

右上のResetを押すと初期の位置に戻る.




表示方法を変えてみる

初期の表示はCartoonなので,いろいろ表示別な方法でしてみる

まずは右のall, 4evv_2fofc, 4evv_fofc, 4evv 1/1 の中の4evv 1/1 のSからwire Linesをクリックする.
そして

Selecting をChainsにしてDNAのChainBとChainC上をクリックして,DNAを選択する.


右の(sele)の S (Show)を右クリックして Show as Stickで表示してみる.
さらにC (Color)のelementから上から7番目のものカラーセットを選択すると色を変更することができる.

基本的な色は水素原子は白色,酸素原子が赤色,窒素原子は青色,硫黄原子はオレンジ色という基本ルールがあるので色が被らないように選択する.



いろいろな表示方法があるので,いろいろ遊んでみるのがいい.
が,それは解析前の話なので,眺めているだけでは何もわからない.


さらに2FoFc Map, FoFc Mapを表示してみる.
4evv_2FoFc のA(Action)を押してmesh --> level @1.0 をクリックすると 4evv_2fofc_meshというものが作成される.Cをおして,メッシュの色を白から青に (白は明るすぎて目が痛くなるので)

同じようにFoFc Mapも.
ただし,4evv_fofc_meshは4evv_fofc_meshからA-->level --> level 4.0にして,Cからメッシュの色を白から緑にしておく.

Levelはシグマレベルなので,平均値+シグマということになる.
通常,2FoFc Mapは1シグマ(1σ)を用い,FoFc Mapは4シグマ(4σ)を用いる.

Screen Shot 2019-03-16 at 10.23.11



注意深く観察していくことが必要になる.これはまた次回.


構造解析101-3: データーの評価

他の人のものを例に出すのは恐縮してしまうので,自分のものを.

たとえばこれ.www.pdb.orgからPDB:4evvを検索してみる.
Screen Shot 2019-03-16 at 01.39.45


みていくところは

resolution

これはhigher resolution is better :数字が小さいほどいいのだけれども,biologyを語るには3-2Åぐらい,ケミストリーを語るには1.5Åぐらいの解像度が必要になる.

基本は4 Å程度であれば,主鎖しか見えない.3-2 Åだと側鎖が綺麗に見えてくる.1.5 Å程度にまでくると分子と相互作用している水分子がたくさん見えてくる.
結晶内の分子の揺らぎが大きいと,高解像度のデータは得られないことによるため.
これらは無限の分子の平均値なので,揺らぎが大きいと主鎖しか見えないし,揺らぎが小さいと水分子の位置まで決定できる.

ちなみに結晶内の体積の50%は水分子なので,化学反応もいっちゃってしまうような環境です.




R-value FreeとR-value Workは,概ね共に0.3以下であることで十分いいモデルになる.
R-value Free とR-value workの差は0.05(5%)程度で,0.1(10%)ほどあればバイアスがあるとみる.

これは結晶解析に特有のクロスバリデーションの方法.
X線回折点を5%(R-free)と95% (R-work)にランダムでわけて,それぞれ別にR-value(誤差)を計算していく.バイアスがあればR-workは下がるけれども,R-freeは下がらない.モデルが正しいとすれば,R-freeが下がると同時にR-workも下がる.なので,その数字の差が重要になってくる.

全くむちゃくちゃなモデルだとR-valueは0.4とか0.6になる.なので,0.3で十分いいモデルになる.higher resolutionのデータでは0.2以下,0.1程度まで下がってくる.





wwwPDB validationは青色の方がいいというもの

X線回折実験結果に合致するように,モデルを作っていくのだけれども,そのモデルのジオメトリー(物理化学の制限)を守っているモデルか,無視しているモデルなのか?ということになる.

ラマシャンドランは主鎖のジオメトリー
sidechain rotamerは側鎖のジオメトリー

になる.
これらはこれから解析する結果の信頼性に関わるので,どれだけ信用できるか?ということに関わるの.今目の前にあるものが,あまりいいデータでないというのであれば仕方がないということになる...

構造解析101-2: データの入手

必要なのは,構造のデータになる.そもそもそれがなければ何もできないわけでどうしようもない.

構造のデータというのは,原子の位置情報,そしてその位置の偏差値(B-factor:温度因子)になる.

構造のデータはたくさんの分子の平均値から計算したものなので,その原子1個1個のそれぞれの位置情報の平均値と偏差値が必要になる.B-factorは原子の揺らぎがどれぐらいあるのかみるために必要になる.






テクノロジーに感謝して,既存のデータベースを調べるのが1つ.AIでモデルを作るのが1つになる.



既存の実験結果をもとにしているデータベースを使うならそのままwww.pdb.orgから分子名を入れてsearchしてみる.似たような配列,構造を持つものを探すならは,Protein BlastからData Baseのタブをクリックして,Protein Data Base (pdb)を選択する.

構造に使われているDNAの配列だって,Nucleotide Blast searchからでも同じようにData Baseのタブをクリックして,Protein Data Base (pdb)を選択して検索できる.



必要なのは4桁の文字+数字の組み合わせになる.

ただし,必ずしも期待した結果が出るとは限らない.





検出に引っかからなければ,モデルや他のアルゴリズムを利用できるのでそれも検討してみる.


僕が特に使っているのは
Phyre2 server http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index
もしくは
swiss model https://swissmodel.expasy.org/

を用いてみる.

swiss modelは2時間程度? Phyre2は12時間程度?,サーバーの混み具合によってどれぐらい時間がかかるかわからないけれども概ね,それぐらいかかる.emailを入れておくと計算が終わるとメールが送られてくる.


これらの予測プログラムは構造予測に基づく検索なので,たとえば似ているフォールディングのものをピックアップしてくれると同時に,シークエンスアラインメントも作ってくれる.
こっちは本当の予測なので,もちろん100%信用できないけれども,非常に参考になる.
テンプレートは,実験結果を元にしているので,それを調べてみるのがいいかもしれない.

Phyre2, swiss-modelはいくつかモデルを作ってくれるので,そのなかから自分が正しいと思うようなものを解析していくといいと思う.
モデルはそのまま保存しておけばオッケー





現在150K個のデータがPDBに登録されているけれども,所詮,結晶構造のデータはモデルなので(そのモデルだと回折実験結果によく合致するというモデル),そのモデルが正しいことをin vitro, in vivoで調べていく必要がある.また,たとえば転写因子の構造を取らない部分であったり,そういうものは調べられていないので,調べたり,構造予測できない部分がまだまだたくさんあるというのが現状なので,過剰な期待は禁物になる.


つづく

  • ライブドアブログ