読者です 読者をやめる 読者になる 読者になる

黄昏より暗きもの、血の流れより赤きもの

自分の好きな事を好きなように書いて行きます。

【Japan.R 2015】国内R言語最大級のイベント「Japan.R」に遊びに行ってきた!

R 確率 統計 イベントレポート

今日は東京の銀座のリクルート GINZA8 11Fホールにて行なわれた「Japan.R 2015」へ行ってきた感想を書こう。


f:id:program_study:20150105144833j:plain

本イベントはR言語と言うプログラムを使って、確率統計・機械学習と言った数学的なプログラムを組み、ある物事の傾向を調査してみた。あるいはそれらを有利に進める為のツール群の発表が行なわれていた。今日は、その中で自分が特に面白かった発表をまとめてみたい。

CET(Capture EveryThing)プロジェクトにおける 機械学習データマイニング最前線(高柳氏) 

自社のデータ分析基盤やそれらの取り組みについて発表。コールセンターのログを見る。つながりにくい時間帯を掴んで、つながりやすくすると言ったことにFluentdを活用。


f:id:program_study:20150105135851j:plain

サイト内でロジスティック回帰*1の割合が○%以上なら、オンラインカード決済にお支払いボタンに寄せると言う事や、旅館の予約速度の値が一定ならば、文言を表示すると言った取り組みも行なっているようだ。

leafletではじめるRによる地図プロット(@kazutan氏)

leafletとは、google mapのようなもの。そしてこうしたアプリをつくるためにgoogle maps api v3と言うものがあり、それと同じようにマップ上にマーカーの設置、吹き出しの表示、ラインを引くと言った事ができる。


f:id:program_study:20150105142331j:plain

leafletを使う利点は、ライセンスの面で扱いやすいという点だ。マーカーのクラスター化機能。また面白い機能としてK-Meansのような機能がある点で、マップを拡大・縮小するとクラスターが再計算されて表示される。特徴を持った位置(経度と緯度)をマップ上に表示するときに非常に便利そうだ。

Across the Hadleyverse -非tabularデータ処理編(@sinhrks氏)

 

昨今Scalaのような関数型言語が業界で注目を浴びているが、Rも関数型言語の一種いう所からはじめ、{purrr}と言うRを関数型言語のように扱うライブラリの説明をしていた。

ラムダ式高階関数など最早大学の関数型言語の授業みたいだった。関数型言語に強い人ならば要素をfor文でループしなくても、回帰分析の結果を全て出力出来る模様。慣れている人向けと言える。

部屋とYシャツと私(@wdkz氏)

次の発表は黄色いRのTシャツを身に付け、「それリ○ルートのTシャツですか?」という突っ込みを受けていた@wdkz氏の発表。

「今日/は/JapanR/に/行った」、コンピューター内で文章を文節毎に区切る(形態素解析)などの処理をひとまとめにして自然言語処理と言う。その中で言語の意味を数量化し、コンピューターで扱いやすくするためのツールword2vec」そのshiny+word2vec、rApache+word2vec、DeployR+word2vecのそれぞれの場合で組み合わせた場合の利点と欠点を説明。


f:id:program_study:20150105152914j:plain

質問の「業務使ってません」「○○社さんが導入したら、うちも使って見ます」。そしてニコニコ学会に出典してた、@takano氏の話が出て来てビックリ。後で聞くと、彼はゲームの回帰分析をしている(関連リンク参照)とのこと。こうしてスライド以外の事を知る事ができるのも発表会の魅力と言える。

LT発表:みんな何使ってるの Japan.R 2015(@wonder_zone氏)

LT発表前の「みんな何使ってるの?」統計を取ってみた模様。前処理が大変だから、「,を付けて欲しかった」と言う所から始まった。「3位  Java 27票」「2位 Python 82票」「1位 R 130票」。Emacs Lisp VB6などマニアックな言語まであった。


f:id:program_study:20150105161543j:plain

LT発表:確率分布総まとめ(仮)(@kenmatsu4氏)

コイン投げを通し重要な確率分布12種を説明していた。実際はベルヌーイ分布、二項分布、ポアソン分布、正規分布、標準正規分布、カイニ乗分布、指数分布、ガンマ分布までで時間終了のようだった。

LT発表:rstanで最強の数学者を推定した話(@JaLanglais氏)

最強の数学者を決めるのをTwitterで集計。統計作業をしているといわば外れ値が出て来て、集計が上手く行かない事がある。本発表では、いい加減な票数を正規分布に従うと仮定し、いい加減な票数とそうでない票数を上手く分離した集計を試みたようだ。。

LT発表7:Estimating the Effect of Advertisment by Varian’s approach with R Shota Yasui Japan.R 2015-12-05

ドイツにあるドラッグストア1115店舗の3年分の売上とそれに関連する店舗の特徴データを使い、どれだけ広告効果に依って売り上げが上がったのかを、回帰分析のような物を使って調査していた。非常に丁寧なスライドなので要必見。

LT発表10:rstanで個人のパラメーターを推定した話:@y__mattu氏

自分の方の復習:rstanやMCMC(マルコフ連鎖モンテカルロ法)について

例えば整関数f(x) = x^2を微分すれば、df(x)/dx = 2x+Const (Const積分定数)となる。反面微分された場合から元の整関数を推定(復元)する時はdf(x)/dx = 2x <=> df(x) = 2x dx <=> ∮df(x)= ∮2x dx ∴ f(x) = x^2 + Const とこんな風に積分することになるだろう。

微分積分の世界では積分できないもの。あるいは微分方程式の解が存在しないものが存在し、オイラー法と言った解を推定するテクニックが開発されてきた。

さてここで「表が出る確率θのコインをn回投げる試行T」を考えよう。確率統計の場合でも先ほどの微分のように、θの情報から試行Tを行なったとき表が出る確率P(n)を考える場合が一般的だ。

しかしそれとは逆にn回コインを投げて、その結果{表、裏、裏、…..、表}と出たとする。もちろん先ほどの積分のように、この試行の結果から元の確率(パラメータ)θを推定する方法が多数考案されている。

又予め事象の結果を乱数を使ってシュミレーションをして、実験用のデータを作成しつつ、確率(パラメータ)の推定を行なう方法がある。その手法の一つに、MCMC(マルコフ連鎖モンテカルロ法)などがある。

本題

本スライドにて実際の購入履歴を用い、パラメーターの推定を行なった事が書かれている。*2

LT発表12:Rで数理モデルシミュレーション ~ワクチン接種と感染症伝播~ 20151205 リクルートGINZA8 YF@Med_KU(id:MikuHatsune氏)

人口100人の村があって、ワクチン接種率が高い場合と低い場合とどれだけ伝染病の進行が早いかを確率過程のモデルを立ててシュミレーションしていた。

LT発表15:Rと形態素解析(@yamano357)

形態素解析を行なうライブラリは幾らでもあるが、Rを使った形態素解析のhow-toを解説。LTで発表するには多い分量だったようで、例えばbag-of-wordsと言った、形態素解析アルゴリズム部分を飛ばして解説していた。

LT発表18:(@teramonagi)

今までは分析関連のネタが中心だったので、今度は苦労話を載せたい。どういうわけだか地蔵さんのお面を被って登壇。自作のRのパッケージを、CRANにコミットするまでの苦労話。数学関係の論文なども、色んな審査を通して受理されるとは聞いていた。しかしプログラム関連もそれと同じなのはビックリした。

最後に

Japan.RやTokyo.Rなど統計学のイベントは一度行ってみたいと思ったので、その願いが叶ってよかった。発表のノリもコミケみたいに好きな感じなのもよかったし、Ustream観覧分も含めると、今年中にTokyoWebMining、Japan.R、ニコニコ学会データ研究部の全ての観覧ができたのが嬉しい。

学生の皆さんも精力的で自分の刺激になったし、何とか自分で刷った名刺交換まで行けてよかった。デザイナーに頼まないとダメだな多分。

それはともかく、発表に参加した皆様、イベントを企画及び準備された皆様。本当にお疲れさまでした。

過去の発表会記事

*1:回帰分析とは、例えば気温が上がるとビールが上がると言う事を確認するために、縦軸に売上、横軸に気温として散布図を作成し、統計的に両者の因果関係があるかを調べる為の手法の事。ロジスティック回帰分析もそのための一つの手法で、詳細は:http://www.ibaraki-kodomo.com/toukei/logis.html

*2:MCMCやstanの説明について、おなじみid:TJO氏の記事MCMCの計算にStanを使ってみた(超基礎・導入編):銀座で働くデータサイエンティストのブログを読んでみると良いかも知れない。