2016-01-25
自称有識者()が例の副作用100%予測にがんばって答える
COIについて
本論文および、筆頭著者とはなんの関わりもありません。
が、残念ながら所属組織とは非常に近い立場にあります。
読んだ (Journal of Big Data 2015, 2:16)
大学のプレスリリース(1月22日発表、1月25日夕方にはなぜか削除)から、こちらで取り上げられ、話題騒然となっている。
プレスリリース削除前に魚拓をとっていたので、本文をそのまま引用する。
2016年01月22日
江谷典子 医学研究科特定研究員は、薬剤やその副作用、疾患の原因となる遺伝子などのビッグデータを解析することで、副作用をほぼ確実に予測できるとの研究成果を発表しました。加えて、既存の薬剤の中で、元々のターゲット以外の疾患に効果を発揮する可能性があるものについての予測も行い、いままで治療薬が公開されていない疾患に対して300件以上の候補を発見しました。
本研究成果は8月7日、Springer社の学術雑誌Journal of Big dataに掲載されました。
研究者からのコメント
将来的にはプログラムを半導体チップへ組み込んだ、システム・オン・チップという技術を用いることで、セキュリティ強化ができると思います。同時にデータ 処理も高速化できるため、今回のようなビッグデータを用いた予測を手軽に行うことができるようになるでしょう。ビッグデータの解析や活用が、より幅広い分野で用いられることを期待しています。
概要
ビッグデータを用いた薬の副作用の予測は、必要な臨床試験のデータが公開されていない場合が多いことから、十分な成果が得られていませんでした。今回の研究では、公開されているデータベースから疾患の原因となっている遺伝子や、薬の働きかける部位、タンパク質と化合物の相互作用に関するデータ、市販されている薬を含む薬剤の副作用と発症率の5項目を統合し、新たにデータベースを構築しました。このデータベースを元にした統計や機械学習を用いたシステムを開発し、副作用の種類や発症率を予測したところ、ほぼ100%予測できました。
論文としては、そもそもどんな副作用が出るかの予測(Side effect prediction) と、副作用の頻度の予測 (incidence prediction)の前半と、そういうアプリケーション作ったという後半。
自分としては前半戦が興味ある話なので、前半にだけついてちょっと読んだ。
モチベーションとしては、clinical feature として副作用と副作用出現率を予測したくて、それらを予測するための説明変数として、biological な情報として化合物-タンパク質相互作用の定量値(?) であるconfidence score, anatomical な情報としてATC codeと呼ばれる、薬が体のどこに作用するというデータ、gene の情報としてGene ID を使うつもりらしい。
まず、予測するためのデータを取ってくるデータベースとして、
KEGG:遺伝子ネットワークのデータベース。gene, ATC codeを入手している。
STITCH:タンパク質-化合物相互作用のデータベース。confidence score を入手している。
SIDER2:副作用データベース。副作用情報と頻度を入手している。
PubChem:化合物データベース。化合物ID と連動した薬物をKEGG から入手している。
ようである。
どちらというと副作用予測より、副作用の発生頻度予測のほうがページが割かれている。TL上の疑問点も多くが副作用頻度についてのところのようである(書く気が落ちている。
まず、よくわからないモデル式から。目的変数(副作用や副作用の発生頻度)について、
という線形モデルを考える。
京大炎上論文,6P目のSCOREとACTとGeneIDで線形結合してる式あるけど,この特徴量なんなんだ
おれもよくわからない。化合物のなんらかの定量値と、作用部位と、遺伝子情報を合わせるのは、まあ、アイディアとしては間違っていない。ただし、単純に生物学的な現象が線形で表せるかというとおそらく違う。
京大ビッグデータ副作用論文。機械学習知らない私でも疑問なのは、@sz_drさんも指摘してるが y'=a1*SCORE+a2*ACT+a3*GeneID+b (1) という式で、GeneIDという定量的に性質を示す値でないものを線形結合に加えているところだと思う。詳しい人教えて
パット見でこの要素めっちゃ面白かったんだけど、geneIDを何かの基準に変換してから重回帰に使うんじゃなくてIDを直ぶっぱしてるんですよねこれ。
よくある重回帰分析の例でいうと、 (その県の推定気温) = a1 * (緯度) + a2 * (標高) + a3 * (50音順に並べたときのその県の番号) みたいになってるのに近い。
線形回帰には定量的に意味を持たないデータを入れても動かないことはない。けれども、それは数学的手続き上、なんとか動くだけであって、実際に意味があるかというとない。
GeneID が例えばダミー変数になるならまだしも、IDがダミー変数ってなんぞこれ。
他にも、SCORE がどういう連続(?)変数かもわからないし、ACTも名義変数っぽいけど、N(神経系)とS(感覚器系)が変数内で独立じゃなくないか?という疑問もある。一部、multicollinearity に気をつけて…という、この内容のレベルからは思いもしない配慮が出てきたので(オッ)っと思ったけど、変数に対する配慮はまったくなさそう。
そもそも、回帰分析してパラメータを推定したならば、それらの推定値を記載するもんじゃないのか?
@torusengoku 遺伝子 ID だとなんとなく意味わからないですが、化合物 ID の場合は類縁化合物が連番(すなわち構造の近さが ID 番号の近さ)だったりするので、活性予測の精度を上げるのには実際使えてしまう、みたいな話を前に聞いたことあります笑
化学的にはこういうことがあるのかもしれないが、
KaggleではIDがいい特徴量になるっていう裏ワザが指摘されてるけど、飽くまであれはコンテストという特殊条件で成り立つ裏ワザだからね。
基本的には限られた環境での出来事であって、これは後の過剰適合に話が続く。
連番IDを特徴量に入れるの最高,みんなも連番IDを特徴量に入れて予測精度100%達成しような
連番IDを色々ランダムにつけて全部の線形結合をとってモデルのサンプル数よりパラメータを多くして100%を達成しよう。
レッツトライ!!()
incidence とdiscriminant analysis(DA)でプロットしている図があるが、Figure 2 はまあincidence が高いほどDA が正にある程度のばらつきをもって相関する、的な意味合いでなんとなくわかるが、これがPLS (図3)になると相関係数がほぼ1 となるような直線上にもろに乗っていて、これはまあ過剰に適合しすぎ感溢れる。しかもこれについて、図2 だとDA=0 で2群をきれいに分ける境界は作りにくいけど、図3 だとincidence 34.7% でDA=0 だからきれいに境界がひける(ドヤッ って、DA=0 にすることが副作用予測を最大化することだったか自分はDA を最近あまりしていないのであまりわかっていない。少なくともこの書き方だとincidence < 34.7% は副作用なしなのか…??
さて、最大のツッコミどころのひとつは、過剰適合っぽい。そもそもこの論文で"validation" という言葉はひとつも出てこない。いま、個のデータ組があって、SVMのための入力空間は
と表される、と書いているので、すくなくとも内的妥当性のためのcross validation もする気がない。
こういう予測問題で精度100% と言われると、たいていの統計屋はこう言います。
過学習させまくればそのデータセットに関してはほぼ 100% に近付きますよ、という過学習の性質に関する論文なんですか
どなたか識者の方,過学習とかオーバーフィッティングとかの概念を当人に教えてあげて下さい….「ビッグデータの解析で薬の副作用予測がほぼ100%可能に」 URL 次なるSTAP的ネタの予感….
100%論文、軽く目を通したがmodelのバリデーションちゃんとやってないのでは…。overfittingかなぁ。Springer好きなんだけど。
100%っていう数字の段階でヤヴァイね。そして論文PDF3秒みた感じではPLSっぽいので、データが綺麗だったんだねぇ、、、という感想以上ない。3秒しか見てないけど。
機械学習で予測100%って,それもうバグだと思った方がいいですね…
だいたい合ってる。
モデルを立てる理由は、いまあるデータを使って「次に来る未知のデータ」がどうなるか予測することです。手持ちのデータをこねくり回すしかしないとこうなります。
結果について、SVM から得られた結果というのが、
When a parameter of SVM is the lower value of “55” and SVM responses false, the parameter is changed to the next interval's lower value of “29”. When SVM responses true in this parameter, it is decided that side effect incidence will be from 29 % to 100 % in the approximated interval. When SVM responses false with the last parameter of “9”, it is decided that side effect incidence will be from 0.1 % to 100 % in the approximated interval.
SVMから得られたパラメータ、というのもまたよくわからないが、これまたよくわからないclusteringという割合(副作用あり/なしの混合比??)があって、55-100%, 29-100%, 9-100% というように少しずつ閾値が下がっているっぽい。ここに、SVMから得られたパラメータというものが収まればcorrect rate が返ってくるようだ?? いまいち想像つかない。
SVM に入力する変数自体は、上のSCORE, ATC, GeneID なので、変数の数自体は問題なさそうだが、少し難があるのがATC 自体は15のカテゴリーがあり、GeneID は数百ぐらいありそうなので、それぞれの変数がいったいどれくらい意味があるのか…??
最終的に未知(?)化合物で試したっぽい結果
例の論文、副作用データの抽出に利用したデータベース(SIDER2)には登録されていないdrug 9種を用いて評価を行った、とあるので学習と評価に使ったデータが全く一緒、という話ではなさそうなのだが、当該drugsがSIDER2以外に利用したデータベース(特にKEGG)
に登録されているのかいないのかが明記されていない&評価に使ったdrugは9種だけにも関わらず一つも構造はおろかその名前も明記されていないので、どうも学習に利用したSIDER2由来のdrugと殆ど同じなんじゃないかという疑念が付きまとう。モデルの妥当性については専門家に任せます。。
9個は試したというが何を試したかはわからないし、なんかみつかったぽいけど、ヒドロキシウレア、プロブコール、ピリドキシン、イミキモドなどなんかまあそれなりに使われているし副作用もあんじゃね?的なもので…うん…まあ…
あと、なんで9種なんだろう。少なくね?
少なくね?
また、モデルの妥当性ということで、上の線形モデルはまあ、いいとして、この3つのパラメータを単純にした7パターンを全部試しているっぽくて、もう何がなんだかよくわからない。
モデルの妥当性を言いたいなら、せっかく過去の話としてliterature review を書いているんだから
せめて先行研究の解析手法とROCで比較ぐらいしてくれよ..
他のモデルと比較したらよかったと思う。
他の有識者たちは
予測とかそのへんの記述がめっちゃ薄いのに,ビッグデータババーンなポンチ絵とか,オブジェクト指向設計のクラス図とか,その辺の記述が盛りだくさんで,かなり警鐘鳴ってるぞこれ. URL
なにこれ。誇大広告みたいに見える。薬剤の作用がそんな単純なことがあろうか。 URL
速攻ぼっこぼこされていて健全で羨ましいわ。
@tonets いいわけない。これ、機械学習何も分かってませんって研究だから。情処の全国大会で座長していて震えたから。
「専門家が斬る!!ライフサイエンス 新着プレスリリース レビュー」 が必要。
これで薬理学とか分子生物学者とかからは人工知能がまた胡散臭いものに取られるし,機械学習とか統計屋からも応用畑の人間は闇とか思われるしで,良いこと1つも無さそう.
結論
cross validation くらいしよう。
- 27 https://t.co/3wp7yT7wsp
- 6 https://www.google.co.jp/
- 5 https://t.co/pn7gWHo9LN
- 2 http://feedly.com/i/category/Blog
- 2 http://htn.to/tuR3E9t8
- 2 http://www.movatwi.jp/url?guid=ON&url=http://d.hatena.ne.jp/MikuHatsune/20160125/1453731635
- 2 https://www.google.co.jp
- 1 http://b.hatena.ne.jp/entry/http:/porterclassic.blog.houyhnhnm.jp/entry/2016/01/25/220324
- 1 http://b.hatena.ne.jp/entrylist
- 1 http://b.hatena.ne.jp/tosh1ki/bookmark