LINE Engineering
Blog
UseR!2018に参加し、社内Rパッケージ「liner」の活用事例を紹介しました
ドーモ、Data LabsのYutani (湯谷)です。
私の所属しているData Labsは、LINEメッセンジャーを含めた全サービスのデータの分析・研究・応用のための専門的な開発組織です。 サービスの事業領域を超えて、各サービスのログや利用動向などのデータを横断的に処理し、より精密なデータ分析と情報フィルタリングを提供し、全サービスのデータの効率的な活用を目標に日々精進しています。
2018年7月10日〜13日に開催されたUseR!2018に参加しポスター発表を行いました。その様子の一部をブログで紹介します。
カンファレンスではRに関連する最新情報や研究成果などが発表されます。UseR!のプログラムには、招待制の基調講演、公募制の通常講演・ポスター発表・チュートリアルがあります。今回、弊社からは、社内Rパッケージ「liner」の活用事例をTakayanagi (高柳)と私がポスター発表を行いました。
例えば、様々なデータソースへの接続の設定をまとめたり、分析結果の可視化にコーポレートカラーを使ったり、SlackやLINEに通知を送ったり、といったものです(RStudioからLINE LIVEを観る、といった謎機能もあります)。
派手な機能はありませんが、データサイエンティストを余計な手間から解放する重要なパッケージです。私が所属するチームではRユーザが多いこともあり、おおいに活用されています。
始まってみれば盛況で、ポスターの前には人が絶えませんでした。企業内でのRの活用事例ということで、同じように企業で働いてRを使っている人から具体的な質問が多く寄せられました。聞いてみるとみな同じような悩みを抱えていたりして、共感の言葉もたくさんもらえました。慣れない英語にしどろもどろでしたが、楽しい時間になりました。
gganimateパッケージの紹介。可視化は、昨今のJavaScriptベースのライブラリの隆盛によって「static ↔︎ interactive」という軸で語られがちですが、そこにもう一つ「animated」という軸を加えよう、という提案が新鮮でした。ggplot2がその背後にある「The grammar of graphics」の思想によって可視化の新たな地平を切り開いてきたように、grammar of animationもまた新たな扉を開いていくのかもしれません。
「NetfixがどのようにRを活用しているのか?」からはじまり、現在開発している内製Workflow管理ツール「Metaflow」の紹介Talkでした。Netflixでは約30%の人がRを用いてデータ分析をしており、それに関するデータ処理のバッチ・システム化を企図し、データサイエンティストでも簡単にWorkflow(日次バッチなど)を書くことのできるMetaflowというツールを内製しているとのことでした。近い内にOSS化するとのことです。
現在ですと、LuigiやAirflowが比較的人気あるWorkflow管理ツールかなと思いますが、ここにRに特化したMetaflowも入ってきそうで、まさに群雄割拠のWorkflow管理ツール戦国時代というところでしょうか。
Apache SparkやScikit-Learnで使われている”機械学習パイプライン処理”のデータ前処理特化版のパッケージ、その名も recipe パッケージの紹介でした。
Linuxの”パイプ”で処理をつなげるか如く、「Rでデータ前処理のパイプラインを構築&記憶しておき、それを実際のデータに適用する」という書き方ができるようになります。
こうすることで、煩雑になりがちなデータの前処理を再現性高く、Codeも綺麗な状態に保つことができ、大変有用なパッケージだなと思いました。
Rは統計学に強い言語なので、統計検定の手法の豊富さが1つの売りでしたが、いささか、その書き方がOld Fashionなところがネックでした。
このTalkでは、この問題を解決するために開発している infer パッケージの使い方や機能を紹介しています。
このパッケージを用いることで、より”ナウい”Rの書き方(所謂tidyverse的な記法)で統計検定ができるようになり、他のデータ処理と親和性高くプログラミングできるので大変便利だなという印象を持ちました。
LINEではRを仕事でバリバリ使いたいデータサイエンティストを募集しています。ぜひ私たちといっしょに来年のUseR!に行きましょう!(もちろんR派ではない人も大歓迎です)