「Kaggler(Kaggleに取り組む人)が増えることで、サービス改善のプロセスそのものも変わっていく」
そう話すのは、AIシステム部 部長の山田憲晋(やまだ けんしん)。同部署はKagglerを推奨することで、DeNAのビジネスに変革を起こそうとしています。
Kaggleとは、多くのデータサイエンティストたちが集い、企業や研究者が投稿したデータに対しての最適モデルを競い合うプラットフォーム。世界中のスペシャリストたちがこの場所で切磋琢磨し、データ分析のスキルを磨いています。
DeNAでは、AI技術開発の横断部門であるAIシステム部のデータサイエンスチームにおいてKaggle社内ランク制度を導入しました。これは業務時間を使った同競技への参加を認める制度。どの程度の業務時間を割いて良いかはKaggleでの成績を元に決定します。
※採用時の条件は、社内異動によるデータサイエンスチーム参加等も含む
KagglerはDeNAをどう刷新し、事業を“フルスイング”させていくのでしょうか? その展望を、AIシステム部の山田と、エンジニアでKaggle Masterでもある小野寺和樹(おのでら かずき)、田中一樹(たなか いっき)が語ります。
目次 [非表示]
Kagglerは、現実に起きている課題を分析するスキルが高い
ーーKaggle社内ランク制度をスタートしたのはどうしてですか?
憲晋:Kagglerは、現実世界の分析課題に対して、どういうアプローチで解いていくのが最適なのかを試行錯誤しながら分析していく能力に長けています。
多種多様なサービスを開発・運営しているDeNAでは、それぞれの事業が持つニーズに合わせて適切に分析設計したり、予測モデルを構築するスキルを持ったデータサイエンティストの役割が重要です。
Kagglerは、そういった能力を持ち合わせている人材であり、社内で必要とされています。こういったニーズに合わせ、AIシステム部主導でKaggleを推奨する仕組みを導入しました。
システム&デザイン本部 AIシステム部 部長 山田憲晋(やまだ けんしん)
1995年4月 NECに入社。TCP Offload Engine等の研究開発に従事。2008年7月DeNA入社。Mobageのサービス開発・インフラ運用、ゲーム開発チームのマネージメントを経て、現在は、DeNA全社のディープラーニングを中心としたAI活用事業の研究開発 及び 分析基盤の構築・運用を行うAIシステム部のマネージメントを行っている。
さらに言えば、DeNAはもともとゲームを主力事業として成長してきましたが、今はそれ以外にもライブ配信を中心としたネットサービス、ヘルスケア、オートモーティブ、スポーツなど、多角的にビジネスを展開しています。今後も、前例がないような新しいサービスを展開していくでしょう。
そうした未知の領域に取り組む際にも、Kagglerのデータ分析能力が役立ちます。なぜなら、彼らは日々、多種多様な分析課題に対して高い精度を実現する分析方法を考え続けているため、解法の引き出しが多い。高いレベルで解決策を提示してくれるのです。
つまり、社員がKaggleに参加して、データ分析能力を競い合う社外活動自体、DeNAの事業を推進していくにあたりリターンがあります。だからこそ、会社として彼らをサポートしていくことを決めました。
業務の100%をKaggleに割いても事業貢献できる存在
ーー改めて、今回スタートしたKaggle社内ランク制度の詳細について解説してもらえますか?
憲晋:業務時間を使ったKaggleへの参加を認める制度です。どの程度の時間を割いて良いかは、Kaggleでの成績を元に決定します。最上位である社内ランクSS(トップ3入賞5回。最低1回は単独(solo)で入賞)になれば、業務時間の100%をKaggleに使うことも可能です。
このレベルになると、分析技術での影響力は圧倒的であり、他メンバーの育成にも大きく貢献してくれます。また、100%をkaggleに使っていても、他メンバーからの分析課題の相談には定常的にのっており、十分に事業貢献してくれる存在といえます。
ーー普段Kaggleに取り組んでいる小野寺さんや田中さんから見て、この制度の一番のメリットは何ですか?
小野寺:多くのKagglerは、業務後の時間や休日などを使ってKaggleをやっているので、どうしても時間的な制約があります。でも、この制度によって業務中にKaggleのアルゴリズムを組めるので、使える時間が増えるのは純粋にありがたいです。
田中:Kaggleに必要なサーバー代や電気代はすごく高額なので、個人でやると負担が大きいです。会社としてのサポートがあることで、試したいことがたくさん実現できて、分析モデルの質も上がるのはめちゃくちゃ嬉しいですね。
憲晋:Kaggleの学習に用いるためのGPUマシンとして、GTX 1080 Tiを搭載したGPU Desktopマシーンに加えて、AWSやGCPなどのクラウドサーバーリソースをデフォルトで月額20万(※)まで利用可能としています。
※……重要コンテストへの参加にあたり承認されれば月額20万円より多く使うことも可能。
Kaggleによって、データ分析の勘所を磨ける
ーーKaggleによって培ったスキルは、業務のどういった場面で活きますか?
小野寺:データ分析のPDCAを回すのがめちゃくちゃ早くなります。僕の所感だと、特徴量を作成して検証・評価する工程が10倍くらいになる。
Kaggleって、大会で上位に入った人が最初からデータの特徴や予測モデルを思いついていたかというと絶対にそうではありません。何回も試行錯誤するなかでベストのパターンを見つけて、やっと1位になれるような世界です。その課題を解き続けるなかで、さまざまな解法を考える力が強くなります。
それから「こういう問題に対しては、普通はこうやってアプローチしていくのがいい」というデータ分析の勘所みたいなものもわかってくるんです。
例えば自然言語処理系の問題だと、どうstop wordsを定義するか、embeddingは何を使用するか、stemmerは何を使用するか、モデルのパラメータ調整など、考えるべき事項がたくさんあります。Kaggleをやるとまず何から取り組むと後戻りが少ないか、精度を早く上げられるかがわかってくる。それに伴って、取り組む速度も自然と上がってきます。
実務においても、まずは簡単な特徴を使ったベンチマークを作ったり、それをどう更新するか考えたりする力はKaggleで培うことができました。
AIシステム部 データサイエンスチーム 小野寺和樹
大学卒業後、銀行系基幹システム開発に従事。その後、金融コンサルとして金融機関の審査モデル構築に携わりつつ、2015年にACM/KDD 主催のデータマイニングコンテスト KDD Cup 2015 にて準優勝。そして2017年、KaggleのInstacart Market Basket Analysisにて準優勝。現在はDeNAにて、各種サービスの機械学習活用に向けた開発を行っている。Kaggle Master。kaggle世界最高ランク41位。
田中:それから、Kaggleをやることでマクロな視点とミクロな視点の両方でデータを見る習慣がつきます。僕は『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートするプロジェクトのメンバーなんですが、開発過程でAI研究だけではなくデータ分析もやっていました。
そのときに、平均値や傾向といった集計結果(マクロ)を見るだけではなくて、1行、1行のデータ(ミクロ)を見たうえで、プレイヤーさんの行動の理由などを考えていたんです。その思考プロセスは、Kaggleをやっていたからこそ身についたもの。そういった習慣が、事業の実データを分析して新たな発見をするうえではすごく役に立ってきます。
AIシステム部 AI研究開発グループ 田中一樹
剣道に打ち込む高校時代を過ごし、米国の経営誌の「データサイエンティストはもっともセクシーな職業だ」という言葉をきっかけに、セクシーを目指して大学4年の頃にデータ分析をはじめる。大学院時代には国内外のデータ分析コンペで賞を受賞し、その賞金100万円をがん患者の支援団体に寄付した。一見大人しそうだが、バックパックやアウトドアなどの活発な趣味をもち、小学生時代には「最も芸人になりそうな同級生」に選ばれたという意外性をもつ。2017年度に新卒でDeNAに入社し、現在はオセロニアのAI開発を行う。KaggleやKDD Cupで入賞経験あり。Kaggle Master。
小野寺:その例でいうと、私が過去に取り組んだ「Instacart Market Basket Analysis」というKaggleのコンペでも、個々のデータの意味を考えること、つまりミクロの視点を持つことの大切さを実感しました。
コンペの内容は、アメリカにあるネットスーパー『Instacart』を訪問したお客さまが「どんな商品を再購入しそうか?」を予測し、購入しそうな順に並べるものです。
この課題で必要なスキルは、お客さまの行動データ1つ1つを見て意味を考えることです。「こういう特性を持つお客様だから、この商品を買ったのではないか」と想像しながら問題を解く視点がないと、コンペでの上位入賞はできないですね。
憲晋:Kagglerは、課題を解くうえで特定の手法に固執せず、さまざまな手法を用いて取り組みます。
例えば、2人が話してくれたようにデータを見る観点を変えるときもああれば、高精度な分析をするためにあえて最先端の技術よりも過去の技術を使うこともあります。
目的を実現できるならば、手段にはこだわらない。そんな考え方ができるのはKagglerの大きな長所であり、データ分析をビジネスに適用するうえで大切です。
仮説ベースだけではなく、分析ベースの改善も可能になる
ーー優秀なKagglerが増えることで、DeNAのビジネスはどう変わると思いますか?
憲晋:仮説ベースではなく、分析ベースでの施策実施が可能になっていくと思います。
DeNAのサービス改善は、サービスを深く理解した人が仮説を立てたうえでデータ分析し、施策を考えるケースが多かったです。しかし、優秀なKagglerが増えてデータサイエンスのスキルが向上していけば、分析をもとに施策の精度を高められます。
例えばゲームの場合、プレイヤーの挙動をもとに「何%くらいの確率でゲームをやめてしまいそうか」を高精度に予測できれば、離脱の可能性が高いプレイヤーに対して自動的にアイテムを付与するといった施策が実現できるかもしれません。
田中:データサイエンスをベースにしてゲームを作る世界が実現できれば、運用に人が介在しなくても自動的に改善サイクルが回る仕組みになっていくかもしれないですね。長期的に見れば。
憲晋: 弊社は横浜DeNAベイスターズを保有していることも特徴ですが、野球の分析に関しても新風を巻き込めるかもしれません。
現状は仮説ベースでデータを検証することが中心ですが、トラックマン(高性能弾道測定器)等のセンサーデータや映像データ等、データが多種多様化していく中で、データドリブンでの高度分析の価値が飛躍的に高まるのではと感じています。
ただ、野球に関しては野球分析に対する知識や熱い情熱も重要です。今(2018年4月)丁度 ”データサイエンティスト(スポーツ分析)”という採用枠を新設したばかりなので、我こそはという人がいれば是非応募してもらいたいです。
目指すは、日本におけるKaggleのフラグシップ企業
ーーAIシステム部に来てほしいのは、どんなマインドを持ったKagglerですか?
田中:サービスを利用していただいているプレイヤーさんのことを考えて分析し続けられる人であってほしいと思います。
データ分析のスキルが高いことはもちろん重要なんですけど、それ以上にサービスを使ってくれる方のことを思いやったうえで「こういうモデルがいいんじゃないか」と考えられるマインドが、DeNAで働くうえではすごく大切で大事にしているところです。
憲晋:私が思っているのは、1つは好奇心旺盛な人。自分の得意領域に固執するのではなく、新しいことをどんどん学んでいき、できることの幅を広げていける人がいいですね。
もう1つはチームワークを大事にする人。AIシステム部には、Kagglerに加えてComputer Vision(CV)、RL(強化学習)、AI創薬など多種多様なAI技術の専門性を持ったメンバーが集まっています。そのメンバーたちに対する尊敬の気持ちを持ってチームとして連携することで、より大きな事業アウトプットを目指してもらいたいです。
小野寺:どんなKagglerに来てほしいか……。向上心のある人がいいですね。自分はKaggleにおいて世界最強になりたいと考えているんですけど、同じようなマインドの人がチームにいたら、絶対に楽しいと思います。
憲晋:チーム内に優秀なKagglerが多くなれば、各メンバーがKagglerとして成長し、良い成績を残せるチャンスも上がると思います。こういった競技に取り組むうえで、モチベーション維持の観点からも強い仲間がいることは重要です。全員が一緒になってKaggleに取り組むことができるので。
小野寺:もちろん、Kagglerのみんながみんな協力し合いたいかというと、そうではなくて、個人で頑張りたい人もいます。でも、身近に強いKagglerがいることで切磋琢磨できますし、ライバル関係になれて良い刺激がもらえるはずです。
田中:Kagglerは競争力や向上心がものすごく高いです。そういった人たちが集まれば、チームのレベルが高くなっていくのは間違いない。
ーー最後に、今後のビジョンについて聞かせてください。
憲晋:Kaggle社内ランク制度によって、データサイエンスチームにどんどん優秀なメンバーを増やしていきたいです。
さらに言えば「Kagglerって凄いんだぞ」という大きな波をDeNA社内で作っていきたい。それに触発されて、AIシステム部だけではなく他部署のエンジニアもKaggleに興味を持ち、勉強してくれたら嬉しいです。
まだまだ、日本におけるKaggleの波はアメリカなどと比べると小さい。今後はDeNAを起点として、その波を大きくしていけたらいいと思っています。目指しているのは、日本の中のKaggleのフラグシップになれるようなチーム。それを、2018年度で具体化していきたいです。
DeNAはデータサイエンティスト(Kaggler枠)を募集しています
まとめ
Kagglerがこれからのモノづくりに欠かせない理由
①高スキルのKagglerは分析技術での影響力が圧倒的であり、他メンバーの育成にも大きく貢献してくれる。
②Kaggleをやることでデータ分析のPDCAを回すのが高速になる。
③Kaggleによりマクロな視点とミクロな視点の両方でデータを見る習慣がつく。
④仮説ベースではなく、分析ベースでの施策実施が可能になっていく。
執筆:中薗昴 編集:榮田佳織 撮影:杉本晴