データマイニング・機械学習関連 の国際会議

0
views

Published on

データマイニング・機械学習関連の国際会議 …

データマイニング・機械学習関連の国際会議
グリッド協議会 第45回ワークショップ『国際会議における技術動向報告』
http://www.jpgrid.org/event/2014/workshop45.html

Published in: Design

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
0
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. データマイニング・機械学習関連 の国際会議 神嶌 敏弘(産業技術総合研究所) http://www.kamishima.net/ グリッド協議会 第45回ワークショップ『国際会議における技術動向報告』 国立情報学研究所,2015.2.6 1
  • 2. 目次 機械学習・データマイニング関連の国際会議の概要 機械学習,データマイニング,および人工知能などと,これらに関連 する分野を俯瞰した後,主な分野について大まかに紹介 近年のデータ分析技術 ここ10年にわたって機械学習・データマイニング分野の進展について の私なりの考え 2014年の国際会議報告 昨年度私が参加してきた KDD, ECMLPKDD, RecSys, NIPS につい ての報告 2
  • 3. 機械学習・データマイニング関連 の国際会議の概要 3
  • 4. ICML NIPS UAI BigData KDD SIGMOD IJCAI DS ALT ICDM ECMLPKDD ICDEVLDB COLT AAAI SIGIR PAKDD ACML SDM WWWWSDM RecSys SIGCHI IUI AAMAS ICANN IJCNN STOCFOCS ICPR ICCV ICASSP InterSpeech CVPR ACL CoNLLNAACL EMNLP ICLR PRICAIECAI ICWSM CIKM HCOMP CSCW AISTATS WI ILP ISWC SODA IAT PRIMA EDBT PODS STACSICALP ESA IAAI ECCV ACCV TREC GECCO CEC IJCNLP COLING EACL ECIR Data Mining Theoretical Computer Science Machine Learning Computational Learning Theory Neural Network Agent Evolutionary Computation Artificial Intelligence Information Retrieval World Wide Web Human Computer Interaction Natural Language Processing Speech Signal Processing Computer Vison Database MathematicsStatistics Network Cognitive Science Social Science Brain Science Robotics Linguistics Computer System High-Performance Computing Computer Graphics Bioinformatics Cheminformatics Mathematical Logic ML,DM,& AI に関連する国際会議 4
  • 5. 俯瞰図のコメント 大まかには,上の方が抽象的,下の方が具体的な問題を対象に この中では機械学習・データマイニングの分野には,学習理論,機械 学習,ニューラルネット,データマイニングが相当 その他の分野 人工知能:いろいろな分野を包括するような分野 CV:画像の認識や合成 音声処理:音声の認識・合成 自然言語処理:自然言語の理解・合成 情報検索:利用者に適切な情報を提供 HCI:人間とコンピュータの連携 WWW:Webの情報の分析とシステムの構築 5
  • 6. データ分析・機械学習 機械学習とは『明示的にプログラミングすることなく,コンピュータ に行動させるようにする科学』by A.Ng ( https://www.coursera.org/course/ml ) もう少し個別にいうと 予測:データを集め,これから起こることを予測する 温度や湿度のデータから,明日は雨が降るかどうかを予測 探索:集めたデータの中から,何か目立つ特徴を見つける 電車の乗降客のデータでは朝と夕方の時間帯に乗客が増える 検定・記述:データの中のいろいろな要素 この観測データから,偶然に左右される影響を排除すると,ヒッ グス粒子が存在することが確かに確認できた 6
  • 7. 計算論的学習理論 目的:データから学習できるか? できるとすればその条件は? と いったことを数理的に記述して厳密に議論する 他分野との関係:機械学習アルゴリズムを実行すれば,確かに予測で きたりしていることは,この分野の理論に基づいて保証される コミュニティの指向:公理や他の定理に基づいて,定理の形で証明で きる結果を重視 7 計算論的学習理論 (Computational Learning Theory)
  • 8. 機械学習 目的:学習理論の保証に基づいて,データマイニングなどで使われる 要素技術をを提供する 要素技術は,新しい情報を取り扱えるようにしたり,より高速に計 算できるようにしたりするもの 他分野との関係:データマイニング分野より,より広範囲に適用でき る,抽象的なレベルでの技術が対象 コミュニティの指向:解いている問題が自明でない問題であることが 重要 8 機械学習 (Machine Learning)
  • 9. データマイニング 目的:機械学習分野で作られた要素技術を基本に,必要であれば追加 の要素技術を開発し,それらを組み合わせて実世界の問題に対処 他分野との関係:機械学習分野のように広範囲に適用できなくても, ある事例に対して有効な要素技術であれば研究対象となる コミュニティの指向:実世界の事例について,提案する手法が必然で あるか,非常に有効であるということが重視される 9 データマイニング (Data Mining)
  • 10. 近年のデータ分析技術 10
  • 11. 最近のML/DM技術の進展 11 2000年以降のデータ分析技術の進展でどう変わったのか? The issue is not just size, the issue is granularity 単に大規模なことが問題なのではない,分析の粒度こそが重要 Michael I. Jordan [Panel on Big Data @ KDD2012] Signal + Noise Signal + Weaker Signal + Noise 信号 外乱 信号 外乱弱い信号 Christos Faloutsos 今まで不明瞭だった情報も明確に分析可能になった
  • 12. 弱い信号をとらえるために 12 問題点の認識:強い信号を捉える手法では,不都合な問題点が あることに気づく 手がかりの探索:不都合を解消するために,分析に役立つ先験 的な知識を探し出す 解決法の開発:手がかりを活用できる分析手法を開発し,利用 できる データ分析の過程で 分析結果を見るときに 分析の前提を把握した上で,結果を読み解く 問題に応じたテーラーメイドの分析
  • 13. 検索データからの経済指標の予測 問題点の認識:単純な関連性の指標で調べると,検索語も経済指標も 多種多様なので,本当は無関係だが偶然に似てしまう場合がある 例:検索語 インド料理店 とUSの自動車販売台数 手がかりの探索:全体のトレンドや季節的な影響などの要素に分解し てみて,それでも関連があれば,本当に関連があるのではないか? 解決法の開発:要素ごとに分解する手法を考案して,ミシガン大消費 者信頼感指数などの予測を行った 使うときの注意:要素に分解しても偶然に関連することは完全になく なるのではなく,その可能性が減少するだけという前提 13 [KDD2013 Invited Talk by Hal R. Varian, http://videolectures.net/kdd2013_varian_search_engine/] Google の検索語の傾向から経済指標を予測する
  • 14. Webカムで車の台数を数える 問題点の認識:ぼけていたり,車が重なって写っていて既存の画像処 理技術では数えることができない 手がかりの探索:車の台数は自然数で,その大きさはほぼ同じくらい 解決法の開発:予測台数が自然数になるという情報を生かした予測手 法を開発 使うときの注意:車の大きさにばらつきがある場合などには数え間違 いをすることもある 14 [T. Katasuki, T. Morimura, T. Idé, "Bayesian Unsupervised Vehicle Counting," Tech. Rep. of IBM Research, RT0951, 2013] 交通インフラが整備されていない国で交通量を把握するため,安価な Webカムで車の台数を数える
  • 15. 2014年の国際会議報告 15
  • 16. KDD2014 この会議について データマイニング分野では最も重要とされる会議で,例年8月 ずっと北米で開催されてきたが,2009年から3年ごとにその他に Research と Industrial の二つのトラックがある 今年の基本情報 今年は20回目で,場所はニューヨーク,Researchの採択率14.2% Bloombergが大スポンサーになっていた 参加者数 約1200→約2400,米 1506,中 86,日 57 全体では55%は企業系参加者,日本は企業系参加者の割合が多い 今年の内容 Bengio 先生のトークはあったが,深層学習はそれほどない ソーシャルネットは,近年の傾向どおり多かった ヘルスケア系が増えてた(オバマ大統領の方針の影響?) 16
  • 17. ECMLPKDD2014 この会議について 機械学習のECMLとDMのPKDDが合併した会議で,例年9∼10月 ヨーロッパの会議で,知り合いを招待するような感じのアットホー ムさがある 採録されるテーマの多様性は他の会議より高いと感じる 今年の基本情報 ECMLとしては25回目,PKDDとしては18回目 フランスのナンシーで開催 参加者数 548,仏 101,独 64,米 49 アカデミアの割合が多い 日本からの非研究系の企業参加者はお見かけしなかった 今年の内容 伝統にそって理論系の話は手厚い 深層学習は2セッションぐらいあって,去年より増えた 17
  • 18. RecSys2014 この会議について 推薦システムの専門会議,基本は米と欧の交互開催,例年9∼10月 ヒューマンコンピュータインタラクションと情報検索に加えて, ML/DMの人達が推薦システムをキーワードに集まった感じ 研究系の発表と,企業系の招待トラックとがある 今年の基本情報 今年で8回目,シリコンバレーで開催 参加者数は500を超えた,企業・アカデミアは半々 米50%,中5%,日4%と割合的には3位だが,アカデミアは少ない 今年の内容 HCI系の研究が減って,ML/DM系の研究が増えた印象 大企業はTwitterのA/BテストインフラXLNTなどどんどん高度化 農家にセンサーを配るClimate,服飾の主観評価に人間計算を使う StitchFixなどの新興企業 18
  • 19. NIPS2014 この会議について 機械学習系でICMLと双璧である会議,例年12月 オーラルは選ばれた20件ほどと,他は多数のポスター発表がある. ポスターの前で数時間にわたって楽しそうに議論している 今年の基本情報 今年で28回目,カナダのモントリオールで開催 参加者数2400ほど,日本から企業・アカデミアの両方から参加 今年の内容 深層学習は非常に盛り上がってる一方で,他の分野も我が道を行く 特に深層学習のワークショップの人数は異様だった 個人的には公正配慮型DMのワークショップがあるので始めて参加 19