[データサイエンティストの思考法〜KDD Cup世界第2位の頭の中〜]
データ分析の新潮流と、未来を支える人材像【最終回】
2016年5月12日(木)加藤 亮(金融エンジニアリング・グループ(FEG)コンサルティング本部 第1部 第1グループ 主任コンサルタント) 本橋 智光(新日鉄住金ソリューションズ(NSSOL) ソリューション企画・コンサルティングセンター エキスパート 兼 技術本部 システム研究開発センター データ分析・基盤研究部 主務研究員)
筆者らの分析チームは、「KDD Cup 2015」というデータ分析の国際大会で2位に入賞しました。これまで、同競技を題材にしてデータサイエンティストの思考法を紹介しました。前回は、ビジネスにおけるデータ分析について、競技と比較することで重要な点を明らかにしまた。今回は、データ分析ビジネスの新たな潮流と、これからの時代に求められる人材や技術について展望します。
前回、ビジネスにおけるデータ活用の現状と、データを“武器”として活用するために企業が重点的に取り組むべきポイントについて、KDD Cupなどのデータ分析競技と比較することで説明しました。今回は、筆者らのチームを含め、KDD Cupで上位入賞した3チームの特徴を整理しながら、データ活用の今後と人材像を考えてみましょう。
モデリングを実現するための3つの選択肢
KDD CUP2015の上位入賞3チームとは、1位の「Intercontinental Ensemble」、2位が筆者らの「FEG&NSSOL」、そして3位が「Data Robot」です。面白いことに、これら3チームは、チームメンバーの構成からして全然違います。
Intercontinental Ensembleは、データ分析コンペが好きなメンバーが様々な会社から集まったチーム、FEG&NSSOLは、同じ会社グループのデータ分析コンサルティングに関わっているメンバーが集まったチームです。そしてData Robotは、データ分析のための自動化ツールを開発しているメンバーが集まったチームでした。
各チームの強みも特徴的でした。Intercontinental Ensembleは、データ分析コンペの豊富な経験から、高度なアンサンブル技術(分析モデルを複数組み合わせて精度を向上させる技術)と緻密なスケジューリング力が群を抜いていました。筆者らFEG&NSSOLは多様な業務経験から得た様々な特徴量の抽出を武器に精度向上を実現できたと自負しています。
そしてData Robotは、自社のサービスを活用してモデリングを自動化し、特徴量の抽出のみ手動で行うという省力化で高精度を実現していました。これら3チームの特徴は、モデリングの実現手段としてもとらえられます。以下、モデリングを実現するための手段として視点から各チームの強みを深掘りしてみます。
Intercontinental Ensemble流の強み
世界中のハイレベルなデータ分析者の力に期待し、データ分析コンペを開催することでモデル構築をアウトソースする方法があります。データを公開することやコンペに準備したデータしか使えないなど、いくつかの問題点がありますが、良いモデルを安価に作ることが容易です。例えば、KDD Cup 2015の賞金総額は200万円程度です。その程度の出費で多様なモデルのアイデアを入手できるとすれば投資対効果としては十分という見方もできるでしょう。
FEG&NSSOL流の強み
データ分析コンサルタントを雇うことも1つの手段です。費用はそれなりにかかりますが、モデル構築以外のフェーズにおいてもコンサルティングを頼めます。柔軟なデータの追加や高精度なモデリングのみならず、モデルの可読性の向上やモデルのレポーティングといった種々の要望を実現できます。データを広く公開する必要がないのも利点です。
Data Robot流の強み
各種サービスを活用して、自社内でモデリングを実現する方法もあります(関連記事『予測モデルを自動生成する米データロボット、リクルートAI研究所と組んで日本市場に参入』)。Data Robotのサービスは、データ分析の初心者であっても高度なモデリングを実現できるようになっています。このようなサービスを活用し、テーマやデータの準備・加工ができれば、素早く簡単にデータ分析を実現できます。上手く活用すれば自社の人材不足を補える可能性もあります。
これら3つの手段を適切に選択すれば、モデリングを実現できます。ですが、それだけではデータ分析から利益を生み出すことができません。データ分析プロセスの上流から下流までのすべてを実現する必要があるからです(図1の①~⑨)。そのためには、データを活用したビジネスを先導できる人材を社内に育てる必要があります。
拡大画像表示
- データを“武器”にするためのビジネス思考とは【第6回】(2016/04/21)
- データサイエンティストのチーム力学【第5回】(2016/03/17)
- 実像に迫るためにコンピューターを鍛え上げる【第4回】(2016/02/16)
- コンピュータが理解できる情報とは何か【第3回】(2016/01/21)
- データから、そのデータを生み出した実像をつかむ【第2回】(2015/12/17)