科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性

1. /361 科学と機械学習のあいだ：  変量量の設計・変換・選択・交互作⽤用・線形性北北海道⼤大学・JSTさきがけ takigawa@ist.hokudai.ac.jp 瀧川⼀一学 2016.11.18 @ 第19回情報論論的学習理理論論ワークショップ (IBIS2016)

2. /362 ⾃自⼰己紹介：瀧川⼀一学 (たきがわいちがく）北北海道⼤大学・情報科学研究科 http://art.ist.hokudai.ac.jp 参考) 1974 Turing Award Lecture “Computer Programming as an Art” (Don Knuth) ⼤大規模知識識処理理研究室: 湊真⼀一教授・瀧川(准教授)・⽯石畠正和特任助教 ScienceとEngineeringをつなぐ「Art」を求めて https://doi.org/10.1145/361604.361612

3. /363 活性あり(active): 1,737化合物活性なし(inactive): 26,895化合物 https://pubchem.ncbi.nlm.nih.gov/bioassay/41 前⽴立立腺癌細胞株PC3に対する成⻑⾧長阻害アッセイデータ何がこの差を分かつのかの作⽤用機序は複雑すぎてもはやモデリング困難なので  データから統計学的に”使える”法則性を同定したい…。(構造活性相関/QSAR)

4. /364 表現の問題：特徴量量、説明変数、素性、記述⼦子？ Atom + Bond SYBYL MOL2 Pharmacophore O N N NH NHN N N CH3 CH3 Imatinib (CID 5291) Conformers in PubChem3D 1 2 3 284 Molecular Graph Representations (実際は通常Implicit Hydrogenを付加) … 取り得る⽴立立体配座は  たくさんある… Molecular Descriptors (variations: constitutional, topological, atom pairs, geometrical, electronic, thermodynamical, physicochemical, WHIM, ﬁngerprints, RDF,   autocorrelations, functional groups, structural keys, properties, interaction ﬁelds, …) 幾何的構造、分⼦子量量、疎⽔水性(LogP)、HOMO/ LUMO、電気陰性度度、置換基定数、… (たくさん) 抗悪性腫瘍剤 (チロシンキナーゼ  インヒビター)

5. /365 タスク・対象に依って有効な特徴量量は⼀一般に異異なる。 [Ramakrishnan+ 2014] Sci Data. 2014 Aug 5;1:140022 Quantum chemistry structures and properties of 134 kilo molecules. C,O,N,Fを9個まで組合せて化学的に可能な全133,885分⼦子の15物性を計算したデータ  (例例えば、C7H10O2で6,095個の⽴立立体異異性体が存在 → 部分グラフ特徴ではダメそう 😣) つまり特徴設計には「銀の弾丸」はなさそう? (c.f. “Ugly duckling theorem” 渡辺慧, 1969)

6. /366 どういう特徴量量を使うかは対象問題ごとに専⾨門的観点で(?)決めているつまり… 多くの場合、対象問題の性質を「機械」が学習するのではなく  「機械学習ユーザ」が学習している状態 😫 本⽇日のテーマ: The Art of Feature Engineering "Applied machine learning" is basically feature engineering. ̶— Andrew Ng Feature Engineering is the next buzz word after big data. ̶— Nayyar A. Zaid 私の思う「機械学習」の理理想像😆：  可能なかぎり⼈人間担当部分はサボれる汎⽤用技術(“機械学習”なのだから！) → 今回は現状で機械学習側に蓄積されている「Art」を整理理して紹介

7. /367 合成特徴量量基礎特徴量量潜在的な交絡因⼦子(confounder)を⾒見見逃すことにより、誤った帰結を得ることを防ぐ意味でもよさそう? ⽬目指すゴール：ある種の「表現学習(特徴学習)」超⼤大規模な変数候補プール予測モデル既存のもの・思いついたものをとりあえずすべて⼊入れておく • システマティックに⽣生成 • 特徴量量の選択や⾼高次合成 • モデルの⽣生成 (仮説⽣生成) • モデルの選択と評価⼈人間担当機械担当 “機械学習” “機械学習”よ、あとは任せた。よしなにやってくれい!! 現状で(機械学習ユーザにとって)ありがたい在り⽅方

8. /368 本⽇日の話の構成データ駆動科学とAbduction/Induction、ケーススタディ線形性と交互作⽤用交互作⽤用の取込み: 多項式回帰, ⼀一般化加法モデル, FM, ⽊木型回帰回帰森/決定DAG: RF, GBM/MART/AnyBoost, XGBoost, RGF, DJ 正則化と変数選択: Best Subset回帰とLASSO, SCAD, MC+, SIS 安定性の対処: Stability Selection (aka Randomized LASSO) 交互作⽤用から合成特徴量量へ超⾼高次元の困難: Chance Correlation, Concentration of Measures 縮約合成量量: 主成分回帰, PLS回帰, 教師付きPCA, t-‐‑‒SNE, Embedding(2vec) ランダマイズド合成量量: RP/ELM/RC, ExtraTrees, VR-‐‑‒Trees メタ特徴量量: Stacked Generalization (aka Stacking/Blending) 変数変換探索索: ACE (Alternative Conditional Expectations) 特徴集合の妥当性評価： AD(Applicability Domain), Y-‐‑‒Scrambling Test

9. 今⽇日の話の裏裏役者：Leo Breiman (1928-‐‑‒2005) • CART (Classification and Regression Trees), PIMPLE • Random Forest • Arcing (aka Boosting) • Bagging, Pasting • ACE (Alternative Conditional Expectations) • Stacked Generalization (aka Stacking/Blending) • Nonnegative Garrote (LASSOの前⾝身 for Subset回帰) • Instability / Stabilization in Model Selection • Shannon-‐‑‒McMillan-‐‑‒Breiman Theorem (漸近等分割性) • Kelly-‐‑‒Breiman Strategy (最適な定⽐比例例戦略略) • UC Berkeley名誉教授 • 2005 SIGKDD Innovation Award • 元々はProbability Theorist If statistics is an applied field and not a minor branch of mathematics, then 99% of the published papers are useless exercises. ("Reflections after refereeing papers for NIPS”, The Mathematics of Generalization, Ed. D.H. Wolpert, 1995) https://en.wikipedia.org/wiki/File:Leo_Breiman.jpg

10. /3610 データ駆動科学とAbduction/Induction 科学では関⼼心ある活性を規定している説明因⼦子を知りたい… データ駆動の暗黙の仮定:その説明因⼦子は説明変数/記述⼦子の合成量量 (還元論論的)科学：複雑な現象や性質の原理理を単純明解に説明したい説明変数/記述⼦子をどうするかがかなりの⼤大問題！！ Hypotheses/Axioms Experimental Facts deduction abduction induction The grand aim of science is to cover the greatest number of experimental facts by logical deduction from the smallest number of hypotheses or axioms. (Albert Einstein)

11. /3611 使えそうな量量の多数候補から”変数選択”を通して探索索対象: ⼆二元化合物半導体の結晶構造(+エネルギー差)予測 (対象82個) 14個(候補23個)のprimary features (原⼦子A-‐‑‒原⼦子B) 閃亜鉛鉱構造(ZB) ウルツ鉱構造(WZ) 岩塩構造 (RS) 様々な変換(和,差,積,指数,⼆二乗,etc)で多数の合成特徴量量を作成 (10000変数) 1. LASSOで有効変数をpre-‐‑‒select 2. 全探索索Subset回帰(Best Subset回帰) Case Study: PRL 114, 105503, 2015 → こっちは最終的には不不使⽤用

12. /3612 対象: ⼆二元化合物半導体の結晶構造(+エネルギー差)予測例例2) EhとC → 要件3にviolate! 論論⽂文で提案された記述⼦子としての4要件 1. 対象材料料やその活性を発現する素過程  をよく特徴づける量量であること 2. 活性が全く異異なる材料料では全く異異なる  値をとる量量であること 3. 予測したい量量を計算するのと同程度度の  時間のかかる量量とならないこと 4. 記述⼦子の数は性能が出る範囲で可能な  限り少なくすること → 要件2,4にviolate!   (KRRでも精度度上がらない) 例例1) 原⼦子番号ペア(ZA,ZB) 使えそうな量量の多数候補から”変数選択”を通して探索索 Case Study: PRL 114, 105503, 2015

13. /3613 論論⽂文の⼿手続きで⾒見見つかった特徴量量 (3つの合成特徴量量の線形回帰) 使えそうな量量の多数候補から”変数選択”を通して探索索 Case Study: PRL 114, 105503, 2015 • この合成特徴量量に基づく線形回帰モデルは背後の科学的法則性についての良良いモデルと⾔言えるのだろうか？ (解釈性や普遍性は？) • 例例えば「機械学習的に⾯面⽩白くない」と無視して良良いのだろうか？私の当⾯面の(技術論論的)関⼼心

14. /3614 何らかの「変数間の”絡み”」(交互作⽤用=interaction)の表現が必要線形性と交互作⽤用他の変数の値と独⽴立立に効果を与える画素iの輝度度画素jの輝度度線形モデルでは他の変数値に依存した条件付きの変数値変動は表現されない (e.g. XORやParityの学習) 整流流が1増えたらが　増える

15. /3615 多項式回帰, ⼀一般化加法モデル(GAM), FM, … 線形モデル + 交互作⽤用項 (e.g. Factorization Machines) ⺟母数に関しては線形のまま：積項を合成特徴量量として加えた線形学習と等価元の特徴量量応答回帰係数合成特徴量量合成特徴量量 • ⾼高次交互作⽤用 (PolyReg)  • ⾮非線形変換 (何でもあり?)  • 基底関数変換 (GAM) 

16. http://playground.tensorﬂow.org/ (by Big Picture group, Google) 合成特徴量量疑問：変数間の絡みを明⽰示的に与えるべきか、学習するべきか？

17. 「うずまき」問題で合成特徴量量を⼀一切切inputせずにArchitecture Engineeringのみで頑張るのは、学習時間もかかるし結構ツラかった…  (or 瀧川の⿊黒魔法量量が⾜足りないだけ… 😣) 「殻」「XOR」「線形分離離可」「うずまき」厳選の(?)４課題が遊べる overﬁtさせるべく正則化なし ReLUで妥協したので  区分線形的な分離離境界を⽣生成合成特徴量量オールoﬀ 学習率率率1/3, 反復復4倍学習曲線にプラトーが出て  諦め時がよくわからん NNの場合、明⽰示的に与えたほうが学習(のTuning?)が圧倒的に楽

18. /3618 超⾼高次元の困難: “次元の呪い”の諸相⼤大きな変数プール(n変数)からBest Subset回帰(m変数)を探すと「本当は全く相関がないにも関わらず」だいたい常に良良い回帰モデルが⾒見見つかってしまう！😫 が指数的オーダで増加するため可能なモデル数「偶然に」誤差の⼩小さいモデルが⾒見見つかってしまうリスクもすぐに増加する QSAR業界では⾮非常に古くから指摘されてきたアーチファクト (Topliss 1972, 1979) J. Fan, Features of Big Data and sparsest solution in high conﬁdence set, 2014 Fan, 2014の例例相関係数の最⼤大値の分布 5変数の重相関係数の最⼤大値の分布 (真に全く無相関) (= 5変数のBest Subset回帰の決定係数) ① Chance Correlation / Spurious Correlation 偽相関

19. /36 Beyer+ 1999の例例: 19 超⾼高次元の困難: “次元の呪い”の諸相 • K. Beyer+, When Is “Nearest Neighbor” Meaningful? ICDTʼ’99 • V. Pestov, On the geometry of similarity search: dimensionality curse and concentration of measure, Information Processing Letters, 1999. 超⾼高次元空間ではサンプル点間の距離離がすべてほとんど同じになってしまう距離離尺度度で情報フィルタリングをする場合、⾼高次元になるとほぼ全検索索に近くなることがデータベースや情報検索索業界で指摘されてきた。確率率率分布Pと距離離dを持つ超⾼高次元空間では良良く”測度度の集中”(ある距離離内にほとんどの測度度が集中する現象)という現象が起こることが知られており、上記もこれに起因 n+1個のd次元点 ② Concentration of Measures Phenomena 測度度の集中現象

20. /3620 正則化と変数選択: Best Subset回帰と縮⼩小推定 • 伝統的な変数選択法 (変数増加/減少/増減法/RELIEFF/t検定 etc) • Best Subset回帰 (L0正則化) • LASSO (Tibshirani 1996) (L1正則化, Basis Pursuit Denoising) leaps(Furnival & Wilson 1974) or 全列列挙(Morgan & Tatar 1972) → 不不安定(データ点が少し変わると最適解が変化) + 計算時間⼤大 LARS (Efron+ 2003) or 座標降降下 (Friedman+ 2007) → 変数間相関がない場合はLASSO=Best Subset(=t検定変数選択) → 変数間相関がある場合は⼀一般にはLASSO≠Best Subset (biased) • glmnet (Friedman+ 2008) L1+L2(Elastic-‐‑‒Net)罰則つきで⼀一般化線形モデルを座標降降下で学習  注: 正確には学習というよりは正則化パス追跡のための⼿手法 → p>n設定のときLASSOでは⾼高々n変数までしか選べない。ロスを  強凸化するので同点解が⽣生じない → 最適化問題の構造が良良くなる。

21. /3621 拡張LASSO型オラクル推定量量とSIS • オラクル推定量量 (Fan & Li, 2001) • Adaptive LASSO(Zou 2006) ←2段階LASSO • SCAD(Fan & Li 2001) ←最も良良く使われる推定量量(実現に難あり) • MC+(Zhang 2010) ←SCADの良良い性質を持ち計算の性質が良良い • 条件1: Best Subsetへの⼀一致性 • 条件2: 漸近正規性スパースな真の回帰モデルが存在するとき、妥当なサンプル数で当てられる性能を規定 • 超⾼高次元の場合、理理論論的な前提が満たされない…   → 対処法: SISで適度度なサイズにpre-‐‑‒select後、SCADなどで詳細選択 • Sure Independence Screening (SIS) (Fan & Lv 2008) p変数(平均0,分散1に基準化)、nサンプル応答に対して、の絶対値順に要素を整列列は漸近的な意味ですべての重要変数を含む番⽬目に⼤大きい相関の絶対値

22. /3622 安定性の対処: Randomized Sparse Models • Stability Selection (Meinshausen & Buhlmann 2010) • Randomized LASSO (Meinshausen & Buhlmann 2010) 参考) Bootstrapをm回やって全部出た変数のみ使うBolasso (Bach 2008)も個のサンプルからを⾮非復復元抽出し変数選択を繰り返す → 各変数が選択変数集合に選ばれる”確率率率”を計算等確率率率乱数パラメタ Regularization Path ❶ LASSO “Stability” Path (選出確率率率プロット) ❷ LASSO ❸ Randomized LASSO ❶ ❷ ❸

23. /3623 ⽊木型回帰・再帰分割: 交互作⽤用取込みの代替選択肢いわゆる決定⽊木とか回帰⽊木とか • CART (Breiman+ 1984), AID (Morgan & Sonquist 1963), CHAID (Kass 1980) • CLS (Hunt 1966), ID3 (Quinlan 1986), C4.5/C5.0 (Quinlan 1993) • VFDT/Hoeffding Trees (Domingos & Hulten 2000) Hyafil, Laurent; Rivest, RL (1976). "Constructing Optimal Binary Decision Trees is NP-complete". Information Processing Letters. 5 (1): 15–17. doi:10.1016/0020-0190(76)90095-8. Known Facts • “Automatic Interaction Detector(AID)” ⾃自動交互作⽤用検出に起源 • CART等はBayes-‐‑‒risk consistent (Gordon & Olshen 1978, 1980) • 最適な2分決定⽊木の構築はNP困難(Hyafil & Rivest 1976)なのでgreedy構築+事後pruning • 学習が⾼高速、変数の単調変換に対して不不変、離離散・連続を同時に扱える、⽋欠損値・異異常値OK 積和標準形(DNF)をモデル化：   交互作⽤用項のみからなる加法形回帰⽊木対応する再帰分割

24. /3624 交互作⽤用から合成特徴量量へ回帰森/決定DAG: RF, GBM/MART/AnyBoost, XGBoost, RGF, DJ 紹介すること縮約合成量量: 主成分回帰, PLS回帰, 教師付きPCA, t-‐‑‒SNE, Embedding ランダマイズド合成量量: RP/ELM/RC, ExtraTrees, VR-‐‑‒Trees メタ特徴量量: Stacked Generalization (aka Stacking/Blending) 変数変換探索索: ACE(Alternative Conditional Expectations) 今回扱わないが関係が深いトピックカーネル法: ⾮非線形⾼高次元写像で間接的に交互作⽤用効果を取り込む⼀一般化加法モデル: スプライン回帰やMARSなどニューラルネット: 写像の計算グラフ(aka Kantorovichグラフ)分解ベイズ予測分布: 積分型アンサンブル学習

25. /3625 その他：教師つきPCA(Bair+ 2006), Sparse PCA(Zou+ 2006), Sparse PLS(Lê Cao+ 2008; Chun & Keleş 2010), ICA(Comon 1994),… 線形合成量量・次元削減: PLS回帰, 教師付きPCA, … ※いずれもスケール不不変でないので注意 (通常各変量量は平均0,分散1に基準化) 様々な低次元合成量量を「特徴量量」としてモデルに加える線形合成量量主成分回帰 … 教師なしの直交化(第⼀一軸: データ分散最⼤大) PLS回帰 … 教師ありの直交化(第⼀一軸: 応答との相関最⼤大) 次元削減量量 Manifold Learning: ISOMAP(Tenenbaum+ 2000), LLE(Roweis & Saul 2000), t-‐‑‒SNE(van der Maaten & Hinton 2008), … Neural Networks: Embedding (2vec), AutoEncoders, …

26. /3626 ACE (Alternative Conditional Expectations), Breiman & Friedman 1985 変数変換探索索: ACE ⽬目的変数説明変数

27. /3627 アンサンブル⽊木型回帰 ❶ Random Forest (Breiman 2001) ❷ 勾配ブースティング(関数勾配降降下) • XGBoost (Chen & Guestrin KDDʼ’16) 葉葉数+L2での正則化および⾼高速化 • GBM/MART/GBDT/AnyBoost (Friedman 1999; Mason+ NIPSʼ’99) ❸ Regularized Greedy Forests, RGF (Johnson & Zhang 2014) • Importance Sample Learning Ensemble, ISLE (Friedman & Popescu 2003)  部分標本(1/2サイズ以下)に対して⽊木を多数⽣生成 → LASSOで加法⽊木に ❹ Decision Jungles (Shotton+ NIPSʼ’13) → 多数決定⽊木を決定DAGに加法⽊木 (回帰⽊木の線形結合) これを回帰⽊木で最⼩小⼆二乗近似 Bootstrap + 乱択部分変数スプリット各反復復: 葉葉split or 新⽊木⽣生成回帰森を⽊木構造正則化つきGreedy構成 + “Fully Corrective”

28. /3628 Feature ImportanceとPartial Dependence • 「解釈性」の問題: それって解釈性なんですか? 「CARTはあまり予測精度度は⾼高くないけど”解釈性”がある」  → 単に予測精度度の⾼高い全く別の説明が他にもあり得ることを⽰示唆? 特に⾼高次元現象により、⽊木やBest Subsetなどの離離散表現は  ほぼ同じ精度度でまったく違う表現が多数存在する場合が多い • ⽊木型アンサンブルの解釈性の担保 • Feature Importance • Partial Dependence Plot (PDP) • 交互作⽤用の共起も頻度度解析できる? ⽊木型アンサンブルはとても良良い!! 😆 (個⼈人的な趣味趣向含む…)  → 明らかに「斜め」の表現に不不向きなのでPCAなど回転系特徴を⼊入れておくとか、線形モデルとBlendingする(後述)とか対応は必要 “ESLII” (2009)

29. /3629 ⾮非線形ランダム特徴量量交互作⽤用を取込めてバリエーションがあればOKなら、もしかして  ランダムでも良良いのでは？という極論論 (実際に結構良良い) ❷ Randomized Trees : : : FC FC : : FC FC Extreme Learning Machine, ELM  (Huang 2006) Reservoir Computing, RC  (e.g. Schrauwen+ 2007) ⼊入⼒力力出⼒力力時系列列⼊入⼒力力出⼒力力ランダム初期化(学習しない)ランダム初期化(学習しない) • Extremely Randomized Trees (Geurts+ 2006) • VR-‐‑‒Trees (Liu 2008) ❶ Random Projections 完全ランダム分割ランダム分割 or CART分割を各頂点で乱択ランダム結合

30. /3630 Netﬂix Prizeなど競技コンペ技術Stacking/Blendingとして広まったメタ特徴量量: CV予測による合成特徴量量訓練サンプル1 訓練サンプル2 訓練サンプル3 訓練サンプル4 訓練サンプル5 訓練サンプル6 訓練サンプル7 訓練サンプル8 訓練サンプル9 訓練サンプル10 任意の予測器ただしこのサンプルは予測器の学習に使⽤用しない (Out-‐‑‒of-‐‑‒Sample Estimate) この予測値⾃自体を追加特徴量量に  (メタ特徴量量) 学習⼊入⼒力力 CV予測 Stacked Generalization(Wolpert 1992; Breiman 1996)

31. /3631 合成特徴量量の⽣生成線形判別 (最終層Linear) 「線形合成+整流流をstack」で写像分解表現学習 = 計算グラフ分解による合成特徴量量学習計算グラフ(aka Kantorovichグラフ) 同じ⼊入⼒力力を使いまわすのでアンサンブル学習の効果も

32. /3632 NIPS 2003 Challenge (Guyon+ NIPSʼ’04) PCA or 単変量量特徴選択 + ノンパラメトリックベイズNN(MCMCで学習)  ARD prior or Dirichlet Difussion Tree priorのもとでの  Bayesian Neural Networks (Neal & Zhang 2006) 隠れ層2層(25→8 units) NIPS 2003 Feature Selection Challenge この%で⼈人⼯工ノイズが加えられている • 主催のGuyonが講義で上記5データに対してベースライン性能を越せという演習課題を作ったら、学⽣生たちの予測が優勝性能を上回った! (Guyon+ 2007) • ESLII(Hastie+ 2009)で⽊木やNNのブースティング,RFと⽐比較最終提出した16 チーム中の優勝者の最終モデル (他と⽐比べ明らかに良良かった) (他のentryの多くはKernel methods) ところが上記は優位とは⾔言えないかもという後⽇日談…

33. /3633 KDD Cup 2015 https://speakerdeck.com/smly/techniques-tricks-for-data-mining-competitions 典型的Churn Predictionタスク: MOOC(XuetangX)のdropout確率率率予測 (賞⾦金金$20,000) Techniques (Tricks) for Data Mining Competitions ⼩小嵜耕平(@smly) 参加821チーム中の優勝者の最終モデル構成(+ちょっとleakyな特徴量量が効いた様⼦子?) • 最終層Linear Stacker • 3段Stackingだが最終  Stackerには1層,2層の  メタ特徴も⼊入れる • GBMやNN + LR のStack重要 • バリエーションが⼤大事(たぶん) • 個⼈人的にはKRRではなく ET(Extra Trees)が2段⽬目でも使われたのが興味深い…

34. /3634 ① AD(Applicability Domain) 伝統的にはQSARは⾻骨格が同⼀一で置換基の異異なる⼀一連の化合物に対して⾏行行われてきた　→ 　学習モデルはこのタスク以外ではうまくいく根拠なし AD = 予測したいデータが与えられた学習済みモデルで”外挿”になってないか判断する⼿手法 (棄却つき教師つき学習 or スイッチング回帰) モデル特徴集合の妥当性評価 C. Rücker+, J. Chem. Inf. Model., 2007, 47 (6), pp 2345–2357 ② Y-‐‑‒Scrambling Test / Y-‐‑‒Randomization 機械学習による外挿は信頼性が⼩小さいので、その際はモデルが適⽤用外と判断！ yをランダムに並び替え並び替え後のデータは「科学的に全く無意味なデータ」 → 全く同じ⼿手順で予測を構築して予測精度度が有意に下がることを確認  (超⾼高次元⼩小サンプルに線形モデルを当てはめるとかの場合特に注意?)

35. /3635 本⽇日の話: まとめのメッセージ • 線形モデルは性質がとても良良いが条件付きの関係を表現できないため underﬁtしやすいので変数間交互作⽤用を何らかの形で組み込む⼯工夫が必要 • 選択肢１：積項交互作⽤用は⽊木型アンサンブル回帰で取り込む  　　　　　(RF, XGBoost, RGF, ET, DJ, …) 線形とのBlendingが相補的? • 選択肢２：多項式回帰系(FMなど)で陽に低次交互作⽤用を組み込む • 選択肢３：とにかく⾮非線形な合成量量をdiverseに⽣生成 (RPやNN) • 選択肢４：上記すべてやってStacking • ⾼高次元では偽相関の問題等が起こる • 超⾼高次元になる場合、単純な単変量量特徴選択(SIS, t検定選択など)や次元縮約(t-‐‑‒SNE, PLS, PCA, etc)はかなり有効 • Cross Validation以外にADやY-‐‑‒Scramblingも考慮し良良結果に慎重に • ⾼高次元では推定が不不安定になりやすい (⽊木やBest Subsetなど離離散系は特に) アンサンブル(Boosting, Bagging, Stacking)やランダマイズ(Stability Selection, Bagging/Feature Bagging, ELM, ExtraTrees, etc)が⼤大切切

36. /3636 謝辞 • 北北海道⼤大学情報科学研究科 • 新学術領領域 (総括: 岡⽥田真⼈人教授)  スパースモデリングの深化と⾼高次元データ駆動科学の創成 • 北北海道⼤大学触媒科学研究所 • 東京⼤大学新領領域創成科学研究科湊真⼀一教授、⽯石畠正和特任助教、⼤大規模知識識研究室メンバー清⽔水研⼀一教授、⾼高草⽊木達准教授津⽥田宏治教授 • JSTさきがけ

科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性

Ichigaku Takigawa

科学と機械学習のあいだ：変量の設計・変換・選択・交互作用・線形性