これは2017年時点のものなので,2019年3月に新たに書き直しているので,そちらも参照.
http://blog.livedoor.jp/hassie500/archives/2124686.html


----------------------
目的
----------------------

分子生物学の人でも
Pymolというタンパク質の構造を表示するプログラムを用いて自由自在に扱うことができる.
論文に使えるレベルの図を作ることができる.
既知の構造を用いて,変異体のモデルを作成することができる.
構造を見て,あれこれダメ出しできる.

構造の論文を読めるようになって,自分の論文に,構造の論文を引用できるようになるというのが最終目標.

セミナーのときにもカラフルな図を自分で作って使えるって素敵と思いませんか?


----------------------
はじめに
----------------------


構造解析というのは,分子生物学や,遺伝学の人たちにとっては難しくてわかりにくいと思われている.そういう心理的なものを取り除くことができれば科学の発展につながるので,その一貫としての情報.あのよくわからないTableもあったりして,同じ言語とは思えないところを,わかりやすく何が書いてあるのか理解できればお互いハッピーだと思う.

論文にある図は立体的に見えないので,立体構造のビューアーを使うことで,立体感を感じることで,タンパク質の構造解析に理解が進んで欲しい.

基本的に色々考えた人が,構造解析データを使って直接やりたいことを実現することができる方が好ましい.レベルがまちまちな結晶をやっている人に頼んで作らなければ出来ないものでは全くないので,書いてある通りにすれば誰でもできるというものにしたい.いちいち頼むのもなんか大変だと思う.


そういう壁を取り除きたいと思っている.


実はそんなに難しくないということを伝え(10年前にPDから始めた経験から),なにかを残したい.入り口を難しくして参入を阻害するのではなく,広く門戸を開いた方がいい.結晶の人が次々とCryoに入っていこうとしている訳で,そういう姿勢にも刺激を受けている.



本当は本になった方が便利と思われるけれども,そのようなことをしてくれる編集者,媒体は知らないのでこの場で.編集,校正が入っていない状態なので,ケイオスな状態をちょこちょこ更新していく予定.version 1.0まではいろいろ書き加えながら.


macしかつかっていないので,残念ながらwindowsやlinuxのことはわからないので,
インストールの方法はMacのみ.他をさがせばいろいろ書いてある.とはいうものの,僕がインストールをしたのはもう昔のことなので,完全に再現できるかどうかはわからないけれどもそこまで難しくないと思う.


目標は分子生物学をやっている大学院生以上の研究者が理解できるようになればいいなと思っています.オープンなコミュニティーを作っていくことで,ハイレベルなものが作っていかれるくと思う.
風通りがいい方がいい.



ちょっとしたコマンドを参照して,コピペすれば簡単にできるので,チュートリアル方式で継続的にアップしていこうと思います.




今までにDNA結合タンパク質,酵素の構造解析を行ってきて,50個ぐらい決定してきて(数えないとわからないので,大体それぐらいということで),原著論文も20本ぐらいこの10年で書いてきました(数えないとわからないので,だいたいこれぐらいということで).シンクロトロン放射光(APS, 22ID/BM, 24ID)の使用時間はトータルで2000時間ほどの経験がある.(1時間の使用料は5万円ほどになる:なんちゃって1億円プレーアー)


日本語で結晶構造のトレーニングは受けていないので,日本語はわからないですが(少しは知っている),基本は英語もしくはカタカナで表示.日本語であっても外国語みたいなものなので,あえて日本でしか通用しない言葉を覚える必要はないと思うのですがどうなんでしょうか?


いろいろ僕もそろそろ論文が溜まってきているので,日本でも研究者として認められる方向になっているようです.


アクティブな研究者の立場からいえば,いろいろとモデルを回転させたりするムービーを作ることは出来るけれども,基本時間の無駄.そんなものを作っているよりももっと面白いことが世界に溢れている.


Molecular Dynamics (シュミレーション)に関しては,現場にいるものからみれば,なぜ学問として成立するのが理解できない.ドラマのなかで素人が時限爆弾を解体するときに,赤か青のどちらかを切らないといけないと,思い込んでいるけれども,実は黄色なのよ.ってな感じ.確実なことを言おうとすると,実体のある結果,in vitroの結果,構造の結果が必要となる.

UHRF1だって5hmCが結合するというのはMDの結果から.-OHがポケットのスペース的に入るということを言っている論文があるけれども,僕も同じことを思った.だけどin vitroでは再現できなかったし,構造もでない.個人的には非常に悪い印象はある.またCTCFのZFに関してもシュミレーションの論文があったりするのだけれども,かなり違う.緊張感をもって取り組まれたほうがいいと思うところ.いずれは将棋ソフトみたいに強くなるだろうけれども,今は開発途中と思われる.


ーーーーーーーーーーーーーーーー


(C) reserved 2017-
目次(作業中)

1. Pymolのインストール
2. データのダウンロード
3. 基本的な使い方.
4A. 電子密度図を表示してみる(option)
4B. omit mapを計算して,表示してみる (option)
5. 原子間の距離を測定する.
6. アミノ酸に変異を入れてみる
7. 表面電化の表示
8. 分子の重ね合わせ
9. reportの見方
10. プラグイン


(C) reserved 2017-.2018

------------------------------------------
1. Pymolのインストール
------------------------------------------

Pymolは構造解析の結果をもとに作られたタンパク質のモデルを表示するビューアー.
モデルなのでdetermineを使う
They determined the crystal structure of XXX at a resolution of XX Å.
と記載できる.


論文にある図のほとんどはPymolで作られていると思われる.
ユーザーが多いので問題があったら,聞けばすぐにわかるのがいい.



www.pymol.orgからライセンスを購入することができるので,面倒な人はそこから購入するのがいい.アカデミックパッケージもあるので,そちらは参照.年間$99のライセンス.


MacPortsからPymolをインストールできる(Homebrewは問題があって現在使えない)

Terminalから
xcode-select --install
とタイプしてxcodeをインストールする.

XQuartzをブラウザからダウンロードしてインストールする
https://www.xquartz.org/

MacPortsをブラウザからダウンロードしてインストールする
https://guide.macports.org/#installing.macports

ターミナルから
sudo port selfupdate
(Macのログインのパスワードを聞かれるので,パスワードを入力)
sudo port install tcl -corefoundation
sudo port install pymol

ついでにAPBS, PDB2PQRもインストールしておく
sudo port install apbs
sudo port install pdb2pqr


でインストールが終わる.
Terminalからpymolとタイプすれば起動する.




2018年3月には,Home brewからpymolに問題があってインストールできなくなっている.


以下はMacに限る(windowsはhome brewは使えない)windowsは使っていないのでわからない.
Home brewを用いれば,オープンソースのPymolを簡単にインストールして使うことができる.

Home brewをinstallするまえにJavaが必要
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Xcodeも必要のようであるので,
ターミナルから
$ xcode-select --install
でxcodeをinstall



Home brewをインストール
https://brew.sh/index_ja.html

ターミナル(Application>Utilities>Terminal)を開き,
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

をコピペして[return]キーでインストール
1


インストールされれば
brew install homebrew/science/pymol

とタイプして[return]キーでインストール

2



シェルがBashだと,pymolは使えない


bash-3.2$
bash: pymol: command not found



となっていれば,Bashなので

tcsh

とタイプしてシェルを変換

[コンピューター名:~] アカウント名%

となっていればOK




あとはターミナルで続けて pymol とタイプして[return]キーで開くことができる.

3


2つwindowがあって,1つはコマンドラインで,もう1つはviewer
コマンドラインはlinuxと似たように↑↓でリコール,[tab]で入力補助ができる.
ls, cd, なんかも使える.
今の(2017May)バージョンは1.8.4.0

古いバージョン(1.7.x)では最新のバージョン(1.8.x)で作られたものは開けないpse (pymol session file)もあるので,必要であればアップデート.基本的にPIのものは古いバージョンになっていると思う.

同じくターミナルから

brew update
brew upgrade

でアップデートされるので超簡単.
もちろん他のものも入れて入れば,必要なファイルも同時にアップデート,アップグレードされる.
バージョンが違うと動かないということがかなりあるので,これは非常に便利.


プログラムがリンクされていると,
pymol
とターミナルでタイプすると起動するし,
ファイルの場所は
which pymol

とするとプログラムが保存されている場所が出てくる.






------------------------------------------
2. データのダウンロード
------------------------------------------

全てのX線,NMRの構造のデータはPDB(www.pdb.org)にアーカイブされている.

BlogPaint


検索
論文にPDBコードが書いてあれば,それを入力
分子の名前で検索することもできる.
特定のライガンドが含まれる構造も調べることができる.


欲しい情報がないとき
マウスでは構造があるけれども,ヒューマンでは構造がない.とかいうのもある.少しのアミノ酸配列が違うだけで結晶が出来ないときもあるので,そういうものだととりあえず諦めるのがいい.


結晶構造解析が出来る人と仲良くなるのも一つのアイデア.
ただし,手を組む現場の相手をよく見る必要がある.
個人的には暇そうな人に頼むのがいいと思う.



ホモログであるかもしれないので,とりあえずBlastで検索.
用いるデータセットはPDBに限定する.

BlogPaint


他の人のものだと恐縮なので自分のものを

5kkq



モデルのクオリティーは必ずチェック.
非常に問題のあるものがたくさんあるので,あとあと色々言われないように注意しないといけない.これらはデータをデポした人の責任であったり,ソフトウェアの責任であって,最近の(2010年以降)のものは問題がある箇所を全て指摘しているにもかかわらず,問題を放置したままデポする人たちが絶えない.

昔のデータにはソフトウエアの不備のためモデルに問題があるけれども,最近の問題があるものは回折データに問題があるものがあるかもしれないけれども,ほとんどは解析する人の怠慢であると考えていい.レビュープロセスで問題のあるものがそのまま通ってしまっているのは深刻な問題.
特にIle, leu, Val,といった側鎖のロータマーがおかしいものがたくさんある.


このような問題があるデータは2次的な利用に支障をきたす.
実際大幅な間違いというのはほぼないと考えてもいいけれども,マイナーなところで間違い,問題が訂正されていないと,本人が訂正を入れてくれないと非常に面倒な議論になる.



5gnn_multipercentile_validation



このようなものは完全に間違っているデータ.これPDB: 5GNNはすでに訂正され5H0Qに新たにデポされている.これは撤回されたもの.space group(後述)が間違っていたため起こった間違い.このようなデータは普通では考えられないこと.訂正されたとはいえ,いかにめちゃくちゃな人がいるというのがわかるし,信用を落とす行為で恥ずかしい.

このようなことがないように,デポするときに全てにおいてチェックすることが必要になっている.デポする前にレポートが自動で作成される.そのレポートをみれば,その数字を見れば大きな間違いがあることは明らかにもかかわらず,これで問題ないということでそれでデポするのは全く理解できない.

現在主要な雑誌は,このレポートを添付することが求められている.



このような間違いを発見したら,オーサーに確認する(PDBと論文は本来別物で,登録するときもメアドを登録しているのだけれども,オーサーの連絡先が見当たらないので,論文情報を元に探すしかない).メールで何も反応がなければCCP4BBにメールをすれば専門家の誰かが対応してくれる.



チェックする点は青色の方にあればいいのだけれども,Ramachandran outliers, Sidechain outliersが0%, ほぼ0%にあることが重要.


これらの構造のデータはあくまでモデルであって,そのモデルであれば,データにかなり一致するというもの.一部解釈が入っているので,特にライガンドにモデルバイアスがある可能性があるので(悪意のない間違いという),書いてあるように100%信頼するのはなかなか難しい.一部デンシティーが見えないところでもモデル化されているので,それも注意しないといけない.

Rwork/Rfreeというのはユニークなreflection(後述)を5-10%と95-90%とランダムに分けてそれぞれモデルエラーを計算したもの.データによるのでなんとも言えないけれども,Rfreeが重要な数字で,Rfreeが30%以下になるようなモデルを作ることに努力している.結晶構造解析にはバイアスが付き物なので,バイアスをできるだけ少なくするように努力している.RfreeとRworkとの差が10%ほどあれば,問題ありのモデルと考えられる領域で,5%程度以下であれば全体的にはモデルバイアスが少ないと考えられる(局所的なバイアスは否定できない).


Rworkはモデルを改善していると基本的に良くさがる.このモデルにバイアスがあったら,Rfreeはほとんど下がらないで,上昇する.一方モデルにバイアスが少なければ,Rworkが下がるとRfreeも同時に下がる.これが理論.昔のものはRfreeの概念がないもので問題があるものもあった.Rfreeを計算しても,結局モデルを作るのは人間なので,モラルが低い人が作れば問題があるのが出来る.このRfreeとRworkの差は要チェック.




基本的には計算上正しいようなものは,溶液中でとる構造の一形態と思って問題はない.

【理由1】タンパク質の結晶の約50%は水分で占められており,酵素であれば,結晶中でも活性がある場合があり,さらに結晶を溶解して酵素反応を調べると酵素活性が維持されているものがあるので,それが全てではないけれども,一つの形態だと考えて問題がない.

【理由2】ものによれば,同じタンパク質でも,異なるパッキングで異なるデータを得られることがある.これらの異なる結晶化条件,異なるパッキング(space group)においても若干違うところがあるけれども(およそr.m.s.dが1Åだとほとんど同じと考えていい),ほぼ同じことから,結晶から得られたデータは溶液中での形を反映していると思える.

【理由3】また,NMRによって得られた構造と,X線で得られた構造とかなり同じなので,これも結晶構造は溶液中の形の一部を反映していると考えられる.


ちなみにNMRは小さい分子に向いているが,データを取れても解析に非常に時間がかかる.X線であれば1日あれば結晶を解析して,モデルを作ることまで頑張れば可能になる.NMRは結晶を作らなくてもいいとされているけれども,結局は結晶を作るに必要な精製度,大量のタンパク質が必要なので,NMRによる構造解析はPDB全体の10%ほどにすぎず,ほぼ全てがX線のデータとなっている.

NMRはタンパク質の構造解析に圧倒的にマイナー領域.もっとダイナミックに特異化した方がいいように思われるけれども,そのようなのは本当に進んでいるのか?という感じで傍観している(日本に帰国は不可能となるセンテンスだな)解析に適したものを作れたらX線の方が断然早い.Cryoなんかよりも結晶が出来れば断然早い.





ダウンロードする必要なデータはDownload Files>PDB Format
(density mapを必要とするならば Structure Factors (CIF)が必要になる)


BlogPaint



PDB Formatをダウンロードする
PDBコード.pdbという名前のファイルがダウンロードされる.



もしくはPlugin→PDB Loader Serviceを使う

か,

FIle-->get PDBで,coordinate, 2fofc mapをダウンロードする.

Untitledc


からType cif (mmCIF)でcoordinate
2fofcで density mapをダウンロードできる.

Cootと違って,validationは見られないので,pdbのwebsiteでチェックする必要がある.




------------------------------------------
3. 基本的なPymolの使い方
------------------------------------------

色々ある(2017年5月で130Kエントリーがある)けれども,PDB: 5KKQを用いてみる.

5KKQをPDBからPDB FormatファイルをDownloads folderに保存する.
同時にStructure Factors (CIF) もダウンロードしておくといい.
mmCIFファイルではない.

昔のものはStructure Factorsのファイルがないものもあるので注意

Terminalからpymolとタイプして[return]で開く


3



3ボタンマウスがあれば便利.便利というか,ないと不便.二千円ほどのもので十分.
(linuxを使うときにも真ん中ボタンがあると便利.)


ダウンロードした5KKQ.pdbをFile Openで開く
ファイルをOpenする前にcommand lineのPyMOL>のところに
cd Downloads
と入れておくとファイルを探しやすい.change directoryだな.

8


このデータは2 complexes in Asymmetric Unit(ASU)なのでChainA,B,Cで一つ,ChainD,E,Fで一つの複合体になっている.基本的にはほぼ同じなので,ABCのみに注目することに.


ーー
NCS (non crystallographic symmetry):ノンクリスタログラフィックシンメトリー
この結晶構造の場合,2つの分子がAsynmetric unit cellあり,NCSがある.
2つの分子はNCSの軸に合わせて重ね合わすことができる.
NCSの軸と,unit cellの軸が平行であれば,higher space group (この結晶構造はP1なので,P2もしくはC2)になる.
ーー




右クリックしながらマウスを動かす>回転(Rota)
左クリックしながらマウスを動かす>拡大縮小(Slab)
ホイールを回す>zスタックの厚さを変えられる.(MovZ)
ミドルクリック>その原子を中心に持ってくることができる(Move)<ーviewerの原子を選んでも,sequence上のresidueをクリックしてもOk.
ミドルクリックで左右上下に動かすと,分子が動く

デフォルトはこれ.Mouse modeにある.
MouseModeのところをクリックすれば違うセットに変わる.


黄色で囲んだところ
BlogPaint


Sボタンをクリックするとシークエンスがviewerに表示される.

Selecting ResiduesのところをクリックすればChain, Segments, Objects, Molecules, C-alphas, Atomsとクリックすることでセレクトする範囲を決定することができる.
セレクトはviewer内の原子をクリックでもいいし,viewerのシークエンス配列をくりっくしてでもできる.
コマンドラインでもできるけれども,クリックした方が早い.


選択した範囲はシークエンスの色が反転するので,どこを選択しているのかもわかる.
そして選択した範囲は(sele)ということになる.

AはAction
SはShow
HはHide
LはLabel
CはColor

BlogPaint


でそれぞれ直感的にイメージできる.
クリックすれば色々出てくるので,遊んでみるのがいい.


複数のcoordinateを表示,1つのものを分割したりできる.
原子を選択すると(sele)というものができるので
A>rename objectで名前をつけておくこともできる.


デフォルトの表示はline表示で,色は緑のセットになっている.
これは非常に見にくいので,色々変えてみる.


ーーー

selectingのresiduesをクリックしてchainsにして,chain D, E, Fを選択
選択した原子はviewerの中では赤色でハイライトされ,シークエンスは反転され,(sele)のタブができる.
command lineで
Pymol> sele chain D
でchain Dを選択できる

BlogPaint




これらはいらないので,(sele)のA>remove atomsで原子を取り除いた.
(基本同じなので)


Hydrogenもいらないので,ALL A>hydrogen>removeでhydrogenを取り除くことができる.
pymolでAdd hydrogenはおかしな角度で付くので,Hをつけたいときは誰かに頼むのがいい.

Chain Aを選択して(sele) S>as>cartoonにしてみる





S>as>cartoonでアニメ風にすることで,ヘリックスはヘリックスの絵に,ベーターストランドはベータストランドの矢印の絵になる.これらは自動的にヘリックス,ベータストランドを認識するけれども,コマンドラインでどこからどこまでがヘリックス,ベータストランドを定義することで,絵が描ける.時々ヘリックスが途中から認識されていないとイメージが良くない.

これは問題がないけれども,別のデータで問題があれば,
コマンドラインで以下をタイプする.
residues 11-40をヘリックスで表示したいとき
alter 11-40/, ss='H'

residues 40-52をループで表示したいとき
alter 40-52/, ss='L'

residues 52-65をベータシートで表示したいとき
alter 52-65/, ss='S'

rebuild
で再表示することができる.

が,特定のchainでということができないのでpdb fileをedit するのがいい




金属は,ライガンドはSelectingをResiduesに変えてから,それぞれviewer内のResiduesを選択するか,Sequenceを選択する

金属は(sele)のS>spheresで丸く表示,C>好きな色を選択

DNAはchain Bとchain Cなのでそれぞれを選択して
(sele)のS>as>sticksでスティックで表示 C>by element>CHONS...(Cが白色を選択がいい.好みの問題)高校の時の理科でチョンスプケカマテ(C, H, O, N, S, P, K, Ca, Mg. Fe)と覚えさせられた...今は校長先生をされておられる...非常に適当な授業だった.成績は下の下だったけれども.



11



水分子を選択してS>nb_spheresで表示.
水分子のelectron densityは高解像であればたくさん見えるし,低解像度であれば見えなくなる.
酵素化学反応を語るには特定の水分子の存在が必要になるのだけれども,解像度が十分ないと見えない.2Å以下の比較的高解像でないと水分子を語るのは難しい.

水分子はいらないというのであれば,A>remove watersで取り除くのがいい.
今回面倒なので取り除いた.

水分子はたくさんあるけれども,基本的に見えるのは,分子の近くで水素結合の距離にある分子.なんらしかの分子によって安定化されているものが見える.ランダムに存在する溶媒の位置は特定できない.


水素も同じ.
原則的にはX線のデータでは水素原子の位置は観測できないけれども,実際に存在しているので計算するうえで,理想的な位置にあるところ,dictionaryにしたがって水素原子の位置を計算しているものもある(特に最近のもの).最近は計算機の高性能化に伴って水素の位置も計算している.モデルのジオメトリーを向上させるのが目的.

見えないというのと,存在しないというのとは別物.クラッシュスコアーが向上する(数字は低くなる).




基本的にはいいモデルを作るときに計算するのに加えられているだけなので,取り除いても問題ない.中性子回折やNMRでない限り実験的に観測された水素原子ではないので.
ほとんどの原子間の距離は水素との距離を記載していないので,心配する必要はない.


A>hydrogens>remove
で取り除く.


基本的な物理化学.
水素結合は2.7-3.1Å程度(水素を考慮しない時の原子間の距離)水素は1Å
ファンデルワールスだと4Å程度

Å(オングストローム)はSI基本単位にはいっていない.10 Å =1 nm
原子レベルでの話をするのには非常に便利なの単位.



モデル化された全ての原子はたくさんの平均値なので揺らぎがあるところとリジットなところが混在している.これらの原子の揺らぎをb-factorとして計算していて,80Å2であれば1Åの揺らぎがあり,解像度が低いほど全体的には高くなる.

揺らぎがあるループなどはb-factorが高く,リッジとなところは30や20といった低いb-factorになる.
b-factorを比較できるのは同じデータセット内でのみ可能で,別々のデータセットの比較は意味がない.

リジットな領域はdensityが見えるけれどもloopになっていてフラフラしているところは全ての分子の平均像では見えないということになる.

一方で実際にプロテエースによって切られているのかもしれない.そこは不明.


ーー
酵素活性や基質認識にはこのループが重要な機能を果たすので,APO(タンパク質単体)では機能は見えてこない.基質とともに結晶化させることで初めて機能的なもが明らかになる.


今はアミノ酸の配列をPhyre2に入れれば,タンパク質の形というものがかなりわかるようになっている.細菌と哺乳類の配列が全く異なるものでも,どちらかがデータベースにあればかなり近いものがコンピューターモデル化して得られる.そして,どのような機能を持つものかフォールディングが似ているタンパク質をみることでおおよその機能は推定できる.

ただし,なにを基質にするのか?どういう配列を認識するのか?

ということはアミノ酸配列を見る,実験的に得られたAPOの構造を見るだけでは不可能で,想像力勝負になる.ただ,現実で起こっていることは我々の想像をはるかに超えている.人類はほとんど何も知らないことを実感する.基本的に今時APOの結晶構造を決定したところで,たいした情報は得られない.
ーー




b-factorはpdb fileに記載されていて,色で表示することができる.
higher b-factorは赤色に,lower b-factorは青色で表示される.
b-factorはそれぞれの原子のゆらぎを示しているので,lower b-factorはよりリジット.
この比較は,必ず同じ結晶構造内でないと比較できない.



----12




時々結晶の回転軸が中心にあって,本来はダイマーなのに結晶的にはモノマーになっているものもある.例えば,PDB: 5EYO

26


このままでは解析できないので,Symmetryの分子を表示する.
A>generate>symmetry mates>within 4 A

27


でシンメトリーの分子を表示することができる.不必要な分子を
Selecting Residuesをクリックして,chainsにしてクリックして選択
(sele) A>remove atoms
で不必要なものはremove atoms
もしくは
シンメトリーとなる5eyo_01000000以外をA>delete objectで消去しておく.



28




---------------------------------------------
4A. 電子密度マップを表示してみる(option: CootとPhenixを用いる)
---------------------------------------------

結晶にX線を当てて回折(diffraction)を得ることができる.

(ここには結晶を作るステップ,回折を得るステップの2段階の難関がある.結晶ができてもdiffしないものはけっこうあるので,現場は結晶ができても,データにならないというのが普通にある)


結晶にはいろいろなパッキングがあって,対称性のないものP1からP2, C2, C222, P3, P4, P6といった複雑な対称性をもっているものがある.これがspace groupで,space groupが違うと,ことなるパッキングになっていると考えていい.データは別ものとして扱うので,同じタンパク質でも異なるspace groupのものがあれば,それは別物として扱う.時々,同じ結晶化条件で異なるspace groupの結晶が得られることがある.結晶が大好きな人は大興奮になる.僕は「別に?」ってことで,仕事が増えるのか...ぐらいしか思わない.



space groupに対称性がないP1だから低解像度,複雑なspace groupだと高解像度になるということはない.





これはFMRPのN末端ドメインの結晶 (space groupはP43212)

53


結晶は通常20-30% ethylane glycol, もしくはglycerolを含むクライオプロテクタントに結晶を浸し,ナイロンループを用いて,表面張力を用いて結晶をループの中にトラップ.それらは液体窒素の中に突っ込んで保存.測定は100Kにて行う.緑の丸の直径が100 μmで,ビームのサイズは50 μm. 結晶を中心に持ってきてX線を照射する.X線は上から下へ照射される.

ちなみにこの結晶は全く反射しなかったもの.
証拠写真でとったもの.Diffするものはいちいちそんな写真は撮らない.


31


単一の,シングルの結晶にX線を当てると幾何学的な綺麗な回折像が得られる.得られない時は解析できない.


diff


これは家庭用X線でとったものなので,あまり解像度は良くないけれども,reflectionsがたくさん見える.これはP65(5は下付き,ピーシックスファイブ)の結晶なので60°結晶を回転させながらデータを取ると100%のデータを取ることができる.
Reflectionのシグナルの強さは< I/σI > (アイ・オーバー・シグマ)で表して,どこまで弱いシグナルをカウントするかというものはケースバイケース.以前は< I/σI >が2以上のものをカウントしていたけれども,現在はさらに弱い反射も計算に用いている.


一番よくあるのがP212121(ピーツーワンツーワンツーワン;3つの1は全て下付き)のspace groupの結晶だと思われる.


ビームストップの部分が白く抜けている.
中心部が∞Å で,ビームストップの白い円の外の縁がおよそ40Å.
バックグラウンドのダークの輪っかをwater ringといっておよそ4-3.3Å (水分子,溶媒)
ccdカメラのエッジが2.5Å程度で,コーナーが2.2Å程度になる.
これらはdetectorとcrystalとの距離によって最大の解像度が変わる.

detectorと結晶の距離を短くすると高解像度の回折点までとれる.
一方unit cellが大きい結晶ではreflectionsが重なると解析できなくなるのでいろいろ試しながら決める.
detectorを傾けることができるので距離を縮めてreflectionsが重ならないような距離でdata collectionする.

必要なimageの数はspace groupに依存するけれども,360°とればとりあえず問題はない.
ただし,結晶は放射線のダメージを受けると反射しなくなるので,いろいろ考えないといけない.





Braggの回折条件(ノーベル賞)の2d sinθ = nλ

というのがあって,広角に回折点が見られるほど高解像度になる.
ちなみに1Åの光を用いた回折実験の最大解像度は0.5 Åになる(普通はこんなデータは取れないので心配する必要はない)

θの角度を計算することで,dが決定され,それがこのデータの解像度になる.
通常50Åぐらいから3~1Åのような範囲に落ち着く.
隣り合うreflectionsの距離(d)を測るとunit cellの1つの長さになる.
このポツポツの間隔が長いと,dが小さくなるのでunit cellが小さい結晶,すなわち塩の結晶だろうということがわかる.

解像度の違いによってdensityの見え方が異なってくる.
全てはマップの見え方なので,解像度が悪いという数字だけでは判断できない.

同じデータセットを用いて,4A, 2.5A, 1.5Aまでのreflectionsを用いてそれぞれ2FoFc mapを計算した.青色は1σ level

4Aだと側鎖のdensityは全く見えない.
なので,全体的な構造を語ることは可能なレベル.ヘリックスがここにあるとか,ベータストランドがあるとか,それぐらいのレベル.

4A



3Aだと側鎖が見えている.このあたりからside-chainとのinteractionが見えてくる.
3A



2Aだとかなり水分子も見えてくる.これぐらいあればかなりのbiologyは十分語ることができる.
2A



1.5Aだとdensityがさらにくっきり見えてくる.水分子もたくさん見えてくる.small compoundとのinteractionも十分語れる,ケミストリーのレベル.

5A




高解像である方がよりdensityがくっきり見えてくるのがわかる.ある程度のことを言うにはやはり3A程度以上の解像度のあるデータが必要というのがわかる.水分子をみるひつようがあれば2Å以上の解像度が必要になる.




実際の構造→回折データの一方向からしか計算できないので,色々と問題が出て来る.
まずモデルを作ってみると,実際の構造を完全に反映しているモデルを作ることができない.なので2つのdensity mapを計算することで,実際の構造に近いモデルを作って,データに合致するようにモデルをひたすら作り直していく.




そのときに使うのが2|Fo|-|Fc| mapと|Fo|-|Fc| mapのふたつのマップをつかってモデルを作成している.
ローカルのF observeとF calculatedが等しければ|Fo|-|Fc|は0になって,2|Fo|-|Fc|=|Fc|となり原子の外形をカバーする電子密度(通常1σで表示)がみられるけれども,なにか原子が不足していると|Fo|-|Fc|=|Fo|になる.ポジティブは緑のマップ,ネガティブは赤色のマップ(通常3.5-4.0σで表示)

この計算をすることで,モデルを作っていく.間違った位置にある原子を訂正する



この2fofc map, fofc mapはpymolのプラグイン(Plugin->PDB Loader Service)からもダウンロード出来る.
2fofc (Density)
fofc (Difference Density)
をダウンロードするとそれぞれのタブが出てくる.
一番簡単なのはA->mesh->@level 1をクリックすればユニットセルの電子密度図が出てくる.

けれども,これは余計な部分も描かれているので,
command lineに

Pymol > isomesh new_map1, 2fofc, 1, (sele), 1, 0, 2

などと入れればモデルに沿ったところだけ,電子密度図を描くことができる.


なぜ必要か?

電子密度が見えないところも,モデル化されているので,確認する必要がある.
GluやLys, Argの側鎖は見えていないことがしょっちゅうある.

これはHigher resolutionでも見られることで,原子が揺らいでいるところでは見えない.
結晶構造は無数の分子の平均値を見ているので,色々なフォームを取っている部分は平均化されると見えなくなる.








常にバイアスを持ち込む危険性があるので,重要なライガンド,アミノ酸などのomit mapを計算する.
実際にdensityが存在するのであれば,その原子を計算上,omitしたとき(通常occupancyを0にする),|Fo|-|Fc|を計算すると取り除いたdensityが見えてくる.見えてこない時はバイアスがかかっているとみる.

実際重要なresiduesはomit mapを表示,計算するので,これがあると,本当にこの位置に原子がありますということを証明することになる.

問題はバイアスで原子をおくと,このomit mapを計算したときにdensityが見えなくなる.

Slide18



2Fo-Fc map, Fo-Fc map, omit mapを計算するには他のプログラムが必要になる.

Xquartz:
https://www.xquartz.org/

Coot:
http://scottlab.ucsc.edu/xtal/wiki/index.php/Stand-Alone_Coot

Phenix
http://phenix-online.org/


からダウンロード,インストール
Phenixはacademic freeなので所属先のメールアドレスを登録してからライセンスにagreeしてダウンロード


インストールはクリックしていくだけなので簡単なので省略


Applications内にあるPhenixフォルダのphenix-X.XX-XXXX(Xにはバージョンナンバーが入っている)をダブルクリックで開く.
おそらくこのままだとCootとpymolのファイルがリンクしていないかもしれないので
preference > graphics のタブをクリックしてCOOT path と Pymol pathを入れる.
僕のは/usr/local/bin/coot と/usr/local/bin/pymol

わからなければ,ターミナルで
which coot
which pymol
とたたけばパスがわかる.




density map及びomit mapを計算する.

必要なelectron density mapは2Fo-Fc mapとFo-Fc mapとomit map
2Fo-Fc map, Fo-Fc mapは
Maps>Calculate Mapsをクリック
BlogPaint


ダウンロードしてきたpdb fileとcif fileを選択
BlogPaint


そしてrunを押すと自動的に2FoFc mapとFoFc mapを作ってくれる.
cootでみるのがいいので,cootで開く

electron density mapのsigma levelを調整する.2FoFc mapは1σ (rmsd)にして,FoFc mapは4σ (rmsd)にする.

Display manager > の1が2FOFC mapで3がFOFC map (2はfilling mapなので使わない)

1のpropertiesをクリックしてcontouringのsetレベルを2FoFc mapは1 rmsd(σ)に
3のpropertiesをクリックしてcontouringのsetレベルをFoFc mapは4 rmsd(σ)に
2はDisplayのチェックを外しておく

omitB


omit6


omit7


cootの使い方はpymolとほとんど同じ.



---------------------------------------------
4B. omit mapを計算して,表示してみる (option)
---------------------------------------------

回折実験から得られたデータをもとに,モデルを構築するのだけれども,そのモデルにバイアスがある可能性がある.概ね高解像度のデータセットでは間違いが起こる可能性が低いとはいえ,絶対というものはない.

重金属など(Se, Hg, Pd, Au, Znなど)は特定の波長ではanomalous signalが見られるので,結晶中の元素の位置を特定することができるけれども,他のものは実際にはわからない.タンパク質のアミノ酸配列,核酸の配列,small compound(結晶作製中に化学反応することもある)がわかっているので,X線回折結果にあうようなモデルを作っていく.その過程でバイアスが入る可能性が否めないので,モデルを完成させたのちに,重要な部分がバイアスがかかっていないか個別に検討する必要がある.


その特定の原子,残基の原子を取り除いて計算して,電子密度図のひとつであるomit mapを作成することで証明することができる.

論文を作成時にはsimulated annealing (SA) omit mapが求められる.
金属イオンがあったり,それとコーディネートしているアミノ酸をSA-omitするときに,ただ単にomitするとぐちゃぐちゃに近隣の原子も移動するので,原子のoccupancyを0.00にして(通常1.00) SA してomit map (Fo-Fc map)を計算する.



結果的にいろいろみているとsimple omit map とほとんどかわらない.
simple omit mapはただ単にomit する領域の原子を取り除いてmapを計算する.







オミットマップは先と同じところから,pdb, cifファイルを選択して,その次のオミットしたい残基を入れてみる.

今回PDB 5ISLはsmall compoundがchain A residue 601にあるので

omit のところに

chain A and resseq 601

と入れて計算してみる.

BlogPaint



omit mapはFo-Fcマップのみなので他のものは捨てておく.

cootでみるとomitされた原子がカバーされるように緑のデンシティーがあるのを確認できる.
omitA



また原子1個でも可能で

別のものだけれどもchain B and resseq 4 and name C5A
とすることでomitすることが可能になる.


pymolで綺麗に表示するにはMaps_XXXフォルダ(Xには数字が入る)のccp4フォーマットを用いる.


作成されたファイル名が長いので
2fofc.ccp4
fofc.ccp4
omit_X.ccp4
のように名前を変えておく.

pymolを開き,これらのccp4 filesを開く.

マップを描きたい原子,アミノ酸残基,分子などを選択しておく

コマンドラインに

Pymol > isomesh "新しく作るマップの名前", "もちいるccp4ファイル", σレベル, (sele), 1, 0, 2




Pymol > isomesh protein, 2fofc, 1, (sele), 1, 0, 2
Pymol > isomesh protein, 2fofc, 1, chain A, 1, 0, 2

Pymol > isomesh X, omit_X, 4, (sele), 1, 0, 2

など

omit mapではシグマレベルによって途中でメッシュが切れてしまう時があるので,その時は最後の2 (Å)を4(Å)にしてみるのがいい.実際金属は電子がたくさんあるので10σ程度にするのがいい.


Pymol > isomesh X, omit_X, 10, (sele), 1, 0, 4


コマンドラインでは↓↑が使えるので,使ったコマンドをリコールできるのでうまく使えば,すぐにできる.

注意することは同じ名前を使うと上書きされてしまうので注意.
メッシュの色はCから選択
バックグラウンドはwhiteにする.



このあたりはこだわりだせば何日も掛けることができる.


---------------------------------------------
5. 原子間の距離を調べる
-------------------------------------------------

今回最近見つかったmutationによる影響を調べてみることにする.
CTCF genetic alterations in endometrial carcinoma are pro-tumorigenic
doi:10.1038/onc.2017.25
によるとK365Tの変異について報告されているので,そこに注目してみる.


viewerのシークエンスからK365を探してみる.
selectingをresidueにしてKをミドルクリックで選択するとK365がセンターに来る
カーツーンのままだと側鎖が見えないので,側鎖を表示してみる.
K365を選んだ状態で(sele) S>Sticksで表示.

ホイールを回転させて,奥行きをコントロール.
もしくはDisplay>Clip>8 Angstrom Slab

バックグラウンド,前にある原子が見えなくなる.元に戻すにはNothingを選択するといい.

このK365はChain AのK365のNζの窒素原子ChainC Gua12のO6の酸素原子と水素結合を作って認識している.

原子の名前を表示するにはL>atom nameで表示できる.
ギリシャ語は表示できないので,それに対応するアルファベットで記載されている.


14


Chain AのK365のNζの窒素原子ChainC Gua12のO6の酸素原子の原子間距離は
wizard>measure
で1つ目の原子を選択し,2つ目の原子を順に選択する.measure01というのができる.

そうすると2.8Åとでる.これは水素結合している距離になる.


Nζ atom of K365 donates H-bound to O6 atom of guanine at position 12


というセンテンスとして記載できる.構造のデータがなければこの1センテンスは書けない.
太陽は東から昇って西に沈む.のような普遍的なことはresultsでは現在形で記載.こういうものは過去形では普通書かない.discussionでは過去形で書く.

基本的なこととして,アミノ酸の主鎖(main chain)はC, O, N, 側鎖(side chain)はCα, Cβ, Xγ,Xδ,,,,とギリシャ文字で.核酸のシュガー,バックボーンはプライムをつけてC1', C2', C3' .baseはN1, C2, O2, というふうに名前がついている.DNAを標旗するときに,5’,とか3’とか覚えていると思うけれども,あれ.


16




他にあればそのまま原子を二つ選べば距離を測定できる.measure02, measure03とタブができるのでそれぞれに相当する.

終わればDoneをクリックする

このままだとmain chainのN, C, O原子が綺麗ではないので,SelectingをAtomにして3つの原子を選択して,(sele) H>sticksとすれば綺麗に見える.

もしくはH>mainchainでmainchainを消しておく.




背景が黒色というのは見にくいのでDisplay>Background>Whiteを選択
原子名のラベルは鬱陶しいので,L>clearで消去
原子間の距離も必要ないので(あとでpower pointで入れるのがいい.でないと,縮小すると読めなくなる)
measure01 H>labelsでラベルを消去
デフォルトの黄色のドットは見にくくなるので,C>grays>blackを選択


同じようにGとペアになっているCとの間の3本の水素結合(measure02, 03, 04)も同じように書いてみる.

17


好みだけれども,Rayをクリックすると影ができる.
個人的には影はない方がいいと思うので,個人の好み.


論文を書くときの鉄則だけれども,図にある原子,residuesの全てにラベルをする.
ラベルをつけたものはtext中で全て説明する.
「図をみればわかる」というのはダメ.
説明しないものは図に載せない.



おまけの機能だけれども,色々な表示はSetting>Cartoon>好きなのをクリックすれば色々遊べるけれども,基本的には時間の浪費になるので,好きな人はこだわればいい.

18



画像の保存はFile>Save Image As>PNGで保存

今のファイルを保存しておきたいときはSave Session Asで保存.
PymolはUndoができないので,色々作ってそれぞれ保存している方がいい.





---------------------------------------------------
アミノ酸に変異を入れてみる
---------------------------------------------------

この論文10.1038/onc.2017.25ではK365Tの変異の話なので,K365に変異を入れてみる.

先ほど作った距離は今必要ないので,measure01, 02, 03, 04をクリックすることで非表示にする.

Wizard>Mutagenesis

をクリックすることでmutation modeになる.

mutationを入れるアミノ酸を選択すると白色に変化したアミノ酸がでてくる.
no mutation>Thrを選択する

基本的なことだけれども,1 letter, 3 letter codeを覚えていないと無理.TはThrでスレオニン.

基本的なことだけれども,日本語読みのアミノ酸は全く通用しないので注意すること.
Lysは日本語読みではリジンだけれども,英語読みではライシン
Tyrは日本語読みではチロシンだけれども,英語読みではタイロシンなど
ほとんどが一致しない.

アミノ酸には取りうる立体構造があり,Rotamerと呼ぶ.Thrの場合は2つ,Lysの場合は17存在する.rotamerによっては近隣の原子と接近しすぎることになりクラッシュすることがある.

ロータマーは←→をクリックすることで表示,選択できる.
近隣の原子とクラッシュすると赤色のクラッシュ表示がでてくる.
それぞれのrotamerの存在する確率はmutation XX%と表示されるのでそれも参考に.

BlogPaint


Thrだと2つかつ,小さな側鎖になるのでクラッシュはしないので,あえてMetにしてみる.
これだとクラッシュするのがわかる.厳密に言えば,mutantでは微妙な構造変化によって問題がないときもあるので,問題が必ず起こるとは限らない.あくまでモデル.



元に戻して,K365Tにすると2つ可能性があるのだけれども,1つは83.3%かつ,クラッシュはほとんどないので,これにしてみる.




20



決定するにはApplyを押してからDoneを押す.
興味ある原子間の距離を測ってみる.

21


ThrのOγ1とGua12のN7, もしくはO6の原子間の距離は5Å以上になりファンデルワールス力も及ばない距離になる.なのでK365Tに変異が入ることで,これまでに形成されていた水素結合がなくなることになる.予想はDNA結合が弱くなること.実際に調べると20倍低下することがわかっている.


24



この分子のPDBファイルはsave moleculeでpdb fileとして保存できる.


他にも癌細胞で色々見つかっているので,いろいろつくってみるのがいい.
この論文ではR377H, P378Lがあるので,変異を入れるとどうなるのか考えてみると面白い.
実際DNAの結合はどうなるのか?ということについては,実際に実験的に調べる必要性がある.



---------------------------------------------------
7. 表面電荷の表示
---------------------------------------------------

タンパク質とDNAと結合する表面はDNAは酸性なので,タンパク質は塩基性になっている.
これは基本的にはelectrostaticになっているので,塩濃度を上げると結合が弱くなることを意味している.

またin vitroでは短いDNAを用いてassayをしているので,塩基配列ノンスペシッフィクな結合をほぼ確実に捉えてしまう.これは基本的にDNAの末端が塩基配列非特異的に,特異的に結合するためである.Double Strand Breaksが起こっていないゲノム上には想定しないものなので,注意が必要である.特にbiotinで標識して,異なる修飾をしたオリゴでpull downしてそれをmass specで定量的に,どのタンパク質が若干多いか,少ないのか?というのは非常に問題がある方法.
1つ目は違うデータセットでどこまで比較できるのか?
2つ目はKdが異なるタンパク質の比較が不可能になる.
3つ目は問題の再現性が取れないこと.


A>generate>vacuum electrostatics
で簡易的に表面電荷を計算することができる.

正確にはAPBSを用いる.
PymolでHydrogenを加えるとおかしな角度でつくので問題になる.
また,densityが見えないところで,sidechain atomsがdelte されているときもあるので,正確には表現できない.

通常僕の構造は,electron densityがみえないところにもsidechain atomsをおいているかつ,水素も計算しているのでそのままでも使えるけれども...

http://nbcr-222.ucsd.edu/pdb2pqr_2.0.0/

で計算させてPQRを用いて計算することになる.

もしくはMacPortで

sudo port install apbs
sudo port install pdb2pqr

をいれておくと,webserverに行かなくても計算できる.
ただし,モデルされていない原子や,水素原子があると正確に描画できないのでwebsiteにいくほうがいい.

僕は-20KTbから20KTbで表示しているので(物による),controlをクリックしながら,ゲージの上でミドルクリックで右,左に動かすことで,ゲージを変化させることができる.

青色はポジティブチャージ,赤色はネガティブチャージ,白色は中性.


気をつけなければならないところは,データによっては側鎖が付いていないものもある.
densityが見えないので,sidechainをモデル化していないものがある.そういうものは白抜けしてしまっているので,一旦side chainを入れてからでないと間違った結果になるので注意しないといけない.

大雑把にはmutationをpymolで入れることでsidechain を復活させることができるけれども,専門家に頼むのがいい.(僕はCOOTを使っている.cootでも自動でmissing atomsをfill inしてくれるけれども,これはメスアップしてしまう可能性があるので全て手動でいれる.



青色になっているところはDNAに結合するところというのがわかる.

22


計算上のデルタGはwebsiteで計算することができる.
どこまで信用できるのかわからないけれども,ツールがあるので,計算上は出すことができるというもの.

http://www.ebi.ac.uk/msd-srv/prot_int/pistart.html

で,それぞれの分子の表面積,接している面積なんかも計算してくれる.

chainを(sele)して,A-->compute-->surface area

で計算できるので,接している面積もpymolでccp4を使わなくても簡単に計算できる


既知のものはそのままPDBコードを入力すればいいし,自分で作っているものや,mutationを入れてみたものも計算してくれる.


<<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>>>>>>
8. 分子の重ね合わせ
<<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>>>>>>

異なる,同じ分子でどれぐらい主鎖が同じなのか違うのか?
ligand ありとligand なしでどれぐらい違うのか?

ほぼ同じ場合,どのようにそれは記述するのか?
違うところは違うところを記述すればいい.

Pymolでもできるけれども,あまり使えないので,Cootを用いる.
Cootだと二つの主鎖のr.m.s.dも計算してくれる.Pymolにできなくてcootにできるのはamino acid sequenceが全く違っていてもalignmentできる.

例PDB: 4LT5(5mCの酸化酵素), 3O1M(3mCの酸化酵素)の構造の場合
sequence identityは10%のものの間で比較
これらは共にDSBH(ダブルストランドベータヘリックス)ドメイン:酸化酵素共通のドメインを持っているので,基本構造は同じ.

Cootをterminalから開く
Cootで2つのPDB filesを開く.

4lt5 and 3mo1


Calculate>SSM superposeを選ぶ

BlogPaint


参照する構造,移動する構造を選択

BlogPaint




構造が移動したことを確認する.
Display ManagerをクリックしてBonds (Colour by Atom by Atom)をC-alpha/Backboneに変更する.

aligned


と,アミノ酸配列が10%しか同じでなくても,同じフォールディングはアラインされる.

どれぐらい同じなのか?というと,Terminalをチェックする

BlogPaint


構造に基づくシークエンスアラインメント
2つの構造のr.m.s.d(ここでは2.4Å:ほとんど同じ)
265 aa (ref), 201 aa (mov)があって,140 aaがアラインされていることがわかる.
これはCαの比較.

The two protein structures are highly similar, with a root mean squared deviation of 2.4 Å when comparing 140 pairs of Cα atoms.

265-140の125アミノ酸, 201-140の61アミノ酸のCαはアラインしていない.
と書ける.これらはtextにコピーして保存しておく.

アラインが納得いけば,2つのファイルをSave asで保存して,pymolで2つのファイルを開いて,色々表現することができる. 


pymolでopenしてS>as>cartoonで作って見る.
そうすると5mC dioxygenaseと3mC dioxygenaseの二つの酸化酵素は,メインのフォールディング(DSBH domain)は同じで,基質となるDNAはそれぞれ直行してタンパク質に認識されていることがわかる.

DNA





アラインさせる領域を限定させたいときはSSMではなくLSQを用いる.

古いデータの一部はアミノ酸番号と,データに入っている番号とが異なるので,cootのRenumber Residuesで番号を一致させておくと良い.

<<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>>>>>>
9. reportの見方
<<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>>>>>>


もしや投稿されてきた原稿の査読をしなければいけない時がくるかもしれない.
色々なパターンを見てきたけれども,構造の部分はわからないからノータッチという人もいるけれども,こういうのはあまり良くない.三人いれば構造の専門家がいるはずだけれども,一言申し上げたいということがあれば,必ず申し上げた方がいい.

それが間違っていたら,次のラウンドでオーサーがわかりやすく説明してくれるので問題ない.わかりにくいセンテンスを書く方が問題なので.



色々な雑誌でPDBにデポジットするときに自動作成されるレポートを提出させるようになっている.これを見てみる.もし添付されていなければ,editorに欲しいとお願いすれば,送ってくれるように手配してもらう.コーディネートも送って欲しいと言えば送ってくれるかもしれないけれども,これは実際送ってくれるかはわからない.

I need a PDB validation report automatically generated at the deposition, for reviewing a quality of XXX structure.

とでも適当なことを書けば送ってくれる.
問題のないものを見てもあれなので,問題があると思うものをピックアップしてみる.

PDB 4nm6

1枚目は表紙
PDBrep1


2枚目がサマリー
Ramachandran outliers, Sidechain outliersが悪いのが目につく.Clash scoreは水素を計算に入れていないからだろう.RSRZ outliersはモデルと実験結果のフィットの問題なのであまり重要ではない.

これらのパラメーターはモデルが物理化学的な制限がどれだけ守られているか?
これは計算させ直さなければならないレベル.

PDB2


Page 4からはエントリーの中身

Page 8はstatistic

page 9はジオメトリー
このあたりから色々問題が出てくる.nucleic acidsは色々な角度を取ることができるのであまり問題にはならないけれども,アミノ酸は全ておかしな角度を直さなければならない.
例えば2行目のLeu1229であればCA-CB-CGの角度は115.30°と決まっているので,130.54°にモデルしていることは直さなければならない.

BlogPaint



page 9の後半からはクラッシュスコアーについて

水素原子がこのデータには付いていないので,理想的な位置に水素原子を置いたときに,原子間の距離が近すぎることで問題が起こるもの.

X線では水素原子が見えないだけで,結晶中にも,水素原子が存在し,モデルしたものにも水素原子が存在しなければならない.なので,回折実験で見えなくても,水素原子を置いてモデルを作ることが必要.そうでないと,物理化学的に不都合のでるモデルになる.

The clash score of this model is too high, authors have to reduce the clash score by adding H during refinement.

と書いてもう一度水素原子を加えてrefinement (精密化)させるように書けばいい.
ゼロはなかなか難しいので,2,とか3ぐらいだったらいいモデルだと思われる.

BlogPaint



Page 10はRamachandranの角度

これは絶対に直させること.
どうしてもフィットしないというのが1つあるかもしれないけれども,これはだめ.
BlogPaint



Page12はTorsion angle

これも絶対に直させること.1つあるというのは可能性があるけれども,これはダメ.

PDB12



これが起こるのはプログラムが自動で修正できないため.

L1418


黄色が彼らのモデルで,白色が正しいモデル.
全く違うのがわかる.これはモデラーが見れば,おかしなロータマーは目視で発見できる.
こんな間違いがいっぱいあるってこと.

これを全部直せば,もっとマップがよく見える.
難しいことではなく,簡単に直せるのにやっていないだけなので,必ず直させる.

All non-rotameric sidechains should be fixed.

これ1文でいい.直せないものがあればそう書いて返してくるわけで.



Ligand
これも僕なら全て治す方向に

pdb19



これはライガンドのcif file(原子の距離とか角度が記載されているもの)がちょっと甘いとき問題が出てくる.


これらのLigandがあれば,そのomit mapがFigureにあるかどうか確認して,なければ計算させて載せるようにすればいい.これぐらいのものは許容範囲だけれども.


全体的に言えば,この構造はロータマーがおかしいものがたくさんあるので,やり直し.
こんなんがずっと残るのは問題だから,訂正できるところは訂正するのが筋.


昔のモデルは問題があるものが多い.これはプログラムの問題でチェックがなかったり,チェックできなかったりしているためで,2010年ごろ以降からのものは全てチェックされて,デポするときにもチェックが入っているし,人の目が入ってチェックされている.膨大な仕事だと思う.

にもかかわらず,少数でないおかしな構造モデルをデポしたりするのは教育がラボや学部での行き届いていないこととレビューアーが通してしまうからだと思う.

最低限レポートで指摘されているところは直せないか?と思うわけ.こういうのを見るとうんざりする.



また,この構造ではないけれども,ライガンドが無茶苦茶なのがある.
解像度による問題もあるとは言え,ないものはないので,あるかないかはomit mapでチェックされないといけない.PIによる暴走があるのかもしれない.




--------------------------
便利なプラグイン
--------------------------
plaginは,コードの部分をtextファイルに貼り付けて,ファイル名.pyで保存する.
Pymolのプラグインからプラグインマニージャー,install new pluginからインストールする


------------------
average_b.py
https://pymolwiki.org/index.php/Average_b

これは原子の数を数えたり,average b-factorを求めるのに使っている.
0.5 occupancyで2つの原子を置くと,2個とカウントされる.

sequenceから選択して,
average_b (sele)

とコマンドインプットエリアに打ち込めば
PyMOL>average_b (sele)
Your selection: (sele)
sum of B factors: 588064.029507
number of atoms: 2769
average B of '(sele)': 212.374152946

と,計算してくれるので,Tableを作るのに一瞬でできる.
チェーンを分解しなくてそのままselectすればいいだけ.

----------------
hydrophobicity
color_H.py
などgoogleで検索すればいろいろある.