Hatena::ブログ(Diary)

驚異のアニヲタ社会復帰への道

Prima Project

2016-01-25

自称有識者()が例の副作用100%予測にがんばって答える

COIについて

論文および、筆頭著者とはなんの関わりもありません。

が、残念ながら所属組織とは非常に近い立場にあります。

 

読んだ (Journal of Big Data 2015, 2:16)

大学のプレスリリース(1月22日発表、1月25日夕方にはなぜか削除)から、こちらで取り上げられ、話題騒然となっている。

プレスリリース削除前に魚拓をとっていたので、本文をそのまま引用する。

ビッグデータの解析で薬の副作用予測がほぼ100%可能に

2016年01月22日

 江谷典子 医学研究科特定研究員は、薬剤やその副作用、疾患の原因となる遺伝子などのビッグデータを解析することで、副作用をほぼ確実に予測できるとの研究成果を発表しました。加えて、既存の薬剤の中で、元々のターゲット以外の疾患に効果を発揮する可能性があるものについての予測も行い、いままで治療薬が公開されていない疾患に対して300件以上の候補を発見しました。

 本研究成果は8月7日、Springer社の学術雑誌Journal of Big dataに掲載されました。

研究者からのコメント

 将来的にはプログラム半導体チップへ組み込んだ、システム・オン・チップという技術を用いることで、セキュリティ強化ができると思います。同時にデータ 処理も高速化できるため、今回のようなビッグデータを用いた予測を手軽に行うことができるようになるでしょう。ビッグデータの解析や活用が、より幅広い分野で用いられることを期待しています。

概要

 ビッグデータを用いた薬の副作用の予測は、必要な臨床試験のデータが公開されていない場合が多いことから、十分な成果が得られていませんでした。今回の研究では、公開されているデータベースから疾患の原因となっている遺伝子や、薬の働きかける部位、タンパク質と化合物の相互作用に関するデータ、市販されている薬を含む薬剤の副作用発症率の5項目を統合し、新たにデータベースを構築しました。このデータベースを元にした統計機械学習を用いたシステムを開発し、副作用の種類や発症率を予測したところ、ほぼ100%予測できました。

 個人の体質や遺伝的特性によって治療効果の高い治療法を選択する、個別化医療への貢献が期待されます。

 

論文としては、そもそもどんな副作用が出るかの予測(Side effect prediction) と、副作用の頻度の予測 (incidence prediction)の前半と、そういうアプリケーション作ったという後半。

自分としては前半戦が興味ある話なので、前半にだけついてちょっと読んだ。

モチベーションとしては、clinical feature として副作用副作用出現率を予測したくて、それらを予測するための説明変数として、biological な情報として化合物-タンパク質相互作用の定量値(?) であるconfidence score, anatomical な情報としてATC codeと呼ばれる、薬が体のどこに作用するというデータ、gene の情報としてGene ID を使うつもりらしい。

 

まず、予測するためのデータを取ってくるデータベースとして、

KEGG遺伝子ネットワークデータベース。gene, ATC codeを入手している。

JSNP:遺伝子多型のデータベース

STITCH:タンパク質-化合物相互作用のデータベース。confidence score を入手している。

SIDER2:副作用データベース副作用情報と頻度を入手している。

PubChem:化合物データベース。化合物ID と連動した薬物をKEGG から入手している。

ようである。

 

どちらというと副作用予測より、副作用の発生頻度予測のほうがページが割かれている。TL上の疑問点も多くが副作用頻度についてのところのようである(書く気が落ちている。

まず、よくわからないモデル式から。目的変数(副作用副作用の発生頻度)y^{’}について、

y^{’}=a_1 SCORE+a_2ACT+a_3 GeneID+b

という線形モデルを考える。

おれもよくわからない。化合物のなんらかの定量値と、作用部位と、遺伝子情報を合わせるのは、まあ、アイディアとしては間違っていない。ただし、単純に生物学的な現象が線形で表せるかというとおそらく違う。

線形回帰には定量的に意味を持たないデータを入れても動かないことはない。けれども、それは数学的手続き上、なんとか動くだけであって、実際に意味があるかというとない。

GeneID が例えばダミー変数になるならまだしも、IDがダミー変数ってなんぞこれ

他にも、SCORE がどういう連続(?)変数かもわからないし、ACTも名義変数っぽいけど、N(神経系)とS(感覚器系)が変数内で独立じゃなくないか?という疑問もある。一部、multicollinearity に気をつけて…という、この内容のレベルからは思いもしない配慮が出てきたので(オッ)っと思ったけど、変数に対する配慮はまったくなさそう。

そもそも、回帰分析してパラメータa_iを推定したならば、それらの推定値を記載するもんじゃないのか?

化学的にはこういうことがあるのかもしれないが、

基本的には限られた環境での出来事であって、これは後の過剰適合に話が続く。

レッツトライ!!()

 

incidence とdiscriminant analysis(DA)でプロットしている図があるが、Figure 2 はまあincidence が高いほどDA が正にある程度のばらつきをもって相関する、的な意味合いでなんとなくわかるが、これがPLS (図3)になると相関係数がほぼ1 となるような直線上にもろに乗っていて、これはまあ過剰に適合しすぎ感溢れる。しかもこれについて、図2 だとDA=0 で2群をきれいに分ける境界は作りにくいけど、図3 だとincidence 34.7% でDA=0 だからきれいに境界がひける(ドヤッ って、DA=0 にすることが副作用予測を最大化することだったか自分はDA を最近あまりしていないのであまりわかっていない。少なくともこの書き方だとincidence < 34.7% は副作用しなのか…??

 

さて、最大のツッコミどころのひとつは、過剰適合っぽい。そもそもこの論文で"validation" という言葉はひとつも出てこない。いま、n個のデータ組があって、SVMのための入力空間は

X=(SCORE_1,ATC_1,GeneID_1),¥dots,(SCORE_n,ATC_n,GeneID_n)

と表される、と書いているので、すくなくとも内的妥当性のためのcross validation もする気がない。

こういう予測問題で精度100% と言われると、たいていの統計屋はこう言います。

だいたい合ってる。

モデルを立てる理由は、いまあるデータを使って「次に来る未知のデータ」がどうなるか予測することです。手持ちのデータをこねくり回すしかしないとこうなります。

 

結果について、SVM から得られた結果というのが、

When a parameter of SVM is the lower value of “55” and SVM responses false, the parameter is changed to the next interval's lower value of “29”. When SVM responses true in this parameter, it is decided that side effect incidence will be from 29 % to 100 % in the approximated interval. When SVM responses false with the last parameter of “9”, it is decided that side effect incidence will be from 0.1 % to 100 % in the approximated interval.

SVMから得られたパラメータ、というのもまたよくわからないが、これまたよくわからないclusteringという割合(副作用あり/なしの混合比??)があって、55-100%, 29-100%, 9-100% というように少しずつ閾値が下がっているっぽい。ここに、SVMから得られたパラメータというものが収まればcorrect rate が返ってくるようだ?? いまいち想像つかない。

SVM に入力する変数自体は、上のSCORE, ATC, GeneID なので、変数の数自体は問題なさそうだが、少し難があるのがATC 自体は15のカテゴリーがあり、GeneID は数百ぐらいありそうなので、それぞれの変数がいったいどれくらい意味があるのか…??


最終的に未知(?)化合物で試したっぽい結果

9個は試したというが何を試したかはわからないし、なんかみつかったぽいけど、ヒドロキシウレア、プロブコール、ピリドキシン、イミキモドなどなんかまあそれなりに使われているし副作用もあんじゃね?的なもので…うん…まあ…

少なくね?

 

また、モデルの妥当性ということで、上の線形モデルはまあ、いいとして、この3つのパラメータを単純に2^3-1した7パターンを全部試しているっぽくて、もう何がなんだかよくわからない。

モデルの妥当性を言いたいなら、せっかく過去の話としてliterature review を書いているんだから

他のモデルと比較したらよかったと思う。

 

他の有識者たちは

 

結論

cross validation くらいしよう。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/MikuHatsune/20160125/1453731635