2013年12月31日

あまりに短い2013年のまとめ

気づけば2013年が終わろうとしています。このブログを振り返ってみると、イベントとその資料の告知という2エントリーしかしていませんでした。とりあえず、忘れないように、2013年というものを記しておこうと思います。

仕事では海外向けとスマホ関連が多かったなぁ。坂の上の雲を追いかけていたら、いつの間にか世界大戦が勃発してしまったような感覚。数年前には考えられなかった光景が広がってて、現実世界とは思えない。そして冬からは、長年やってきた最適化エンジン&ターゲティングの開発からは離れ、新しい事を始めました。

2013年というのは、PCの終わりの始まりの年だったなぁ。言い換えると、cookieの終わりの始まりの年。パラダイムが変わるときって、本当に楽しい。

2014年、新世界を引っ掻き回すための仕込みの年にしたいと思います。



2013年04月13日

色彩を持った野口わたると、彼のパワーポイント::IODC2013

野口わたるは安堵の表情を浮かべていた。IBMのサイトで公開されたPDFデータは、彼が望んだ通りのメイリオフォントが見事に再現されていたためだ。インカ帝国の石積みのように隙間なく敷き詰められた文字間隔や、美しく年輪を重ねたオーボエ奏者のように細くて丸みを帯びたメイリオフォントのラインが好きだった。また、彼は古いWindowsの初期状態のフォントがMS Pゴシックであることを、ひどく嫌っていた。たんぽぽの種が春風に吹かれて丸裸になっていくように、旧式のWindowsなんてなくなってしまえばいいとすら思っていた。もはや互換性という言葉は、彼のシナプスを通過する事はなくなっていた。

一ヶ月ほど前、彼が日本IBMから受け取ったパワーポイントのテンプレートは、とても質素なものだった。ヘッダとフッタには草原のような緑を基調とした一筋のラインが横切り、リレーショナルな円たちが背景で踊っていた。しかし、彼はその圧縮ファイルを解凍した瞬間に気づいた。「これはBLADEのカラーとは合わない。」確かにBLADEは、漆黒の夜空を黄色い雷が切り裂くような激しい色彩で、見るものを威圧するほどだったからだ。時計の最も短い針が一回転するくらい悩んだ後、彼はこれまで手がけた事のない、緑を基調とした資料を猛然と作り始めた。

しかし、ふと頭をよぎったことがテーブルにこぼした蜂蜜のように彼の脳味噌にへばりついた。「なぜIBMが緑なんだろう。」IBMに色彩は無かったのではないか。確かに以前はアメリカの少年が着ているTシャツのようなくすんだ青色を基調としていた。また、ThinkPadに誇らしげにぶら下がっていたのも赤、緑、青のロゴだった。しかし今、虹色だったアップルコンピュータの"1984"は現実のものとなり、色彩を捨てた新生"Apple"があっという間に三色のPCの帝国を打ち破ってしまった。

そんな事をぼんやり考えながら作業をしていると、背景で踊っていたリレーショナルな円たちがデータに見えてきた。そうだ、自分がなぜこんなにデータを見つめられるのかと言えば、データにはドラマがあるし、グラフが踊りながら伝えるメッセージを聴き取ろうとしているからだ。そして乳房のような曲線美を描くゲイングラフに出会いたいのだ。
「色彩。それがBIでありデータマイニングってことか。」彼はそうつぶやいた。

色彩を持たない多崎つくると、彼の巡礼の年色彩を持たない多崎つくると、彼の巡礼の年 [単行本]
著者:村上 春樹
出版:文藝春秋
(2013-04-12)




2013年04月05日

IBMのイベントで講演します

Information On Demand Conference Japan 2013
4月11日(木) 14時~
【A-2】ネット広告のアルゴリズム取引で日本最大級になった理由
久しぶりに講演します。IBMのイベントで、主にデータマイニングなどの分析とビジネスについて話します。ネット広告を全然知らない方向けの内容なので、競合さんが来るとガッカリされるでしょう。

そして、このビッグデータ祭りに油を注ぐのか冷や水を浴びせるのか。「分析ツールとデータサイエンティストはシンクロ率が重要なんだ。SPSSとHadoopでは魂の場所が違うからね。」みたいな話をするとかしないとか。

Webからの申し込みはすでに満席になっていてできないようですが、FAXでの申し込みなら残席有りとのことなので、どうしても参加されたい方はFacebookのメッセージやTwitterやLinkedInなどでご連絡いただければFAXシートをお送りします。(申込は4月8日マデ)


2012年11月25日

ビジネスを科学しませんか?

2012年の2本目のエントリーです。早いもので、もう2012年も終わろうとしています。日本にもアドテク情報のユビキタス化が進行し、このブログも完全に役目を終えたかに思えましたが、やらねばならないことがあります。

データサイエンティスト - 職種一覧 : 採用情報 | マイクロアド 

ヒトが足りません。モノ・カネ・情報はもういいんです。採用情報を作ってみましたが、文字数が少なすぎて想いが伝えきれないので、文字数制限の無いこちらでぶちまけます。

ビジネスを科学する仕事
まず、流行の「データサイエンティスト」というタイトルですよ。「ビッグデータ」と並ぶ2012年業界流行語大賞入選確実視されるキーワードですが、ここではビジネス素養を持ったデータマイナーのことを意味してます。ビジネス素養?うむ。それは、ぼくらのしごとはビジネスのためにデータマイニングを活用するので、データマイニング(機械学習)手法それ自体に並々ならぬ興味を持っている人と区別してます。剣術で●●流とかどうでもいいから、戦場で強い人がイイネ!ってことを指してます。往々にしてビジネスの世界は、剣術日本一よりもピストルを持ったおじいちゃんの方が強いみたいなことが起こる訳で。

また、そのテクニックの適用領域は、地球温暖化など遥かに超えるレベルで激変する環境に対して利用するわけなので、悠長な仕事をやってる暇がない。研究所と言っても基礎研究はしないし、人類の叡智のために仕事をしている場合ではない。臨床も臨床、フロント中のフロント。なぜならば、うちのデータサイエンティストは自ら作ったプログラムを自ら実験・検証して、自分で本番環境にぶっこむので。もちろん最初は誰もが素人ですけれども。

もうひとつの意味合いとしては、ぼくたちの仕事は「ビジネスを科学する仕事」なので、マーケティングを含むビジネスに楽しさを感じることは必須かも。物理現象と違って、マーケティングの世界は再現性の低いことばかり。再現性の低い環境でうまく動作するロボットをどう作るかが勝負。ここらへんは経験と勘に基づく職人技なのだけれど。

ありえない柔軟さ
おそらく、この規模のビジネスをしていて、分析官が本番環境にデータをぶっこんでいるのもうちくらいなもんなんじゃないかと思っている。良い意味でも悪い意味でも明確な承認プロセスというものが存在していない(ハハハハハ)。会社の規模としてはアドテクに従事する従業員数としては日本最大級だろうけど、まだまだベンチャーなのです。システムは完全に社内開発なので、こっちが作ったデータをパラメータ連携させるための仕様変更やログ項目を変えてもらうのも早い。たぶん、ここが外資系との一番の違い。ここらへんがボクが外資系には行けない理由。(それ以前にまともに英会話できねぇじゃねぇか)

明確に結果を出せる環境で、結果を出したもん勝ち
分析官の多くはレポートを提出して施策を提案し、そこで仕事は終わりという感じなんじゃないかと思う。で、結局その施策は諸事情によって理想通りには実行されず、目に見える成果が上がらず、お客さん・社内も信頼もしてくれない...的な無限ループ。いやボクも昔はそうでした。アウトプット対象のシステムや業務が融通がきかないと、いくら分析しても無駄なんです。なので、うちも融通のきく(分析データを配信システムにダイレクトに引き渡せる)システムに変更してもらってからはパフォーマンスで成果を見せられるようになったし、数字でダイレクトに評価が出てくるので、結果出したもん勝ちになった。分析官の能力よりも、分析結果を業務やシステムにいかに展開できるかどうかで、ほとんど最初からプロジェクトの成否は決まっているとつくづく思う。

分析環境になぜ高額な投資をするか
分析環境はデータマイニングワークベンチであるIBM SPSS Modelerで分析を組んで、裏側でDWHであるIBM Netezzaが猛烈にデータを処理している。それをジョブ管理ツールであるIBM SPSS Collaboration and Deployment Manager(CADS)でバッチを設定する。これらを利用すると、コードを一行も書かずに分析を含んだバッチプログラムを作れたりする。建築で言うなら、SPSS ModelerというCADで猛烈な早さで設計図を書き上げ、Netezzaが猛烈な早さで工事して、CADSがその進捗を管理・監視してくれるので、たった一人で巨大な都市を思考スピードで造り上げてしまうことが可能。最近ではFusion-ioを入れてみたり。(もちろん定常的な集計処理はHadoopで回してます。)もちろんこれらは非常に高額だし、オープンソースソフトウェアでも同じことできるよと言われれば、確かにスペック比較の上ではそうなのかもしれない。ただ、それらOSSの導入・学習・試行錯誤プロセス・メンテナンス・製品間連携などを考えると、商用(っていうかIBMさん)にするという選択になる。

「分析はできているんだけど、 それを自由に実験・適用する環境が無い」「いざITチームに開発を頼むと、ものすごい時間がかかるし、お互い会話する言語も違うから結局莫大な時間がかかり、何やろうとしてたか忘れた」なんてことは、あるあるネタなはず。だったら、分析官自身が商用ソフトウェアを使って、誰もが開発までできるようにしちゃえばいいじゃんって発想。OSSしか使ったことの無い人は、商用ソフトウェアがどれだけ人間の発想を支援してくれるかがわかるはず。だってボクは作る前に設計図を書いたことがないのだから!

データ量
扱っているデータはほんとに膨大。日本のネットユーザーの9割以上に一ヶ月以内にリーチしている。cookie数で4億以上、人間では6000万人以上のデータはある。いままでのCRMとは全く違うレベルのものが行える素地がある。

タイミング
RTBがデジタルな広告のプロトコルになる日は近い。英語が世界のプロトコルになったように。RTBが生まれてまだ数年。ようやくしゃべれるようになった赤ちゃんくらい。現在はPCのディスプレイ広告から動画やモバイル端末に拡張された段階だけど、もっともっと拡げられる。電子書籍端末であろうと、IPテレビだろうと、デジタルサイネージだろうと、ネットラジオだろうと。フォーマットや端末がどうあれ、その広告枠は売買され、その通信方式はRTBなはず。RTBをマーケター視点で見れば、ついに登場した真の1to1マーケティングが可能な環境。まだRTBを知らない人でも、いまならこの世界にまだ間に合う。(RTBプロトコルについては次回投稿予定)

環境
この人をはじめとして、へんてこな仲間がいっぱいです。ちなみに、東京でも京都でも拠点は好きなところに。成果さえ出せばどこで仕事してようが、誰も文句言いません。あと、文系だろうが理系だろうが論理的思考能力があれば関係ないし、データマイニング経験も関係なし。論理的思考によって「いま、自分が何をすべきか」を間違えないことが最重要であり、テクニックなんてどうにでもなるし。

そんなぼくらと一緒にはたらいてみたい方は、ご連絡を。

データサイエンティスト - 職種一覧 : 採用情報 | マイクロアド 



2012年03月02日

ビジネスを知らぬデータマイナー

「ビッグデータ」という言葉を聞かない日はないくらいの馬鹿騒ぎで、データマイナーはすっかり引く手数多の職業になりました。ただ、SI業界がこれまでムーブメントを起こしてきた数々のワードと同様、多くの"ビッグデータプロジェクト"は失敗することになると思います。ERP, BPR, BI, CRMなどなど…

ビッグデータにまつわる職業の中でも、データを分析するデータマイナーに絞っての話をしたいと思います。また、データ分析専門会社にてコンサルティング業をするデータマイナーは今日の話は当てはまりません。さて。データマイニングを知らない方々は、企業においてどのようなデータマイナーがいれば成果を上げられるのかの明確なイメージは持っていないと思います。これだけたくさんのデータがあるんだから、すごい技術を持った人ならなんとかしてくれるに違いない、と。最高学府の修士・博士で、よくわからないけどすごいアルゴリズムを作ったらしい人を採用すれば、きっと何かすごいことが起きるのではないかと。でも多くの場合、成果を上げるデータマイナーは技術や頭脳ではなく、ビジネスを理解しているデータマイナーだなぁと、個人的な少ないサンプルでの検証結果からはそう思います。

天才的な頭脳を持ったデータマイナーと、ビジネスを理解したデータマイナーは別の職種と言うべきで、それぞれ成果を出せるフィールドは全く異なります。特定用途をうまくこなす目的のアルゴリズムを考え出す人と、ビジネスを目的としてアルゴリズムをひとつの手段として使う人の違いと言い換えられるかもしれません。

たとえば、Googleの検索エンジンは前者の賜物です。ユーザーが入力したキーワードに対して、適切なURLをランキングするという、超ピュアな技術。一方、Googleのアドワーズは後者の賜物です。CPC x 品質スコアという仕組み、そして品質スコアの算出式。それによって数多の人間はどう入稿設定し、広告設定DBはどういう状態になり、クエリごとにどう広告ランキングが構成されるのかを想定しながら仕組みを作る。ここではデータマイニングは入力変数なだけであって、ほとんどは制度設計がポイント。

企業で本当に必要とされている職能は、ほとんどの場合はピュアな技術ではなく、データマイニングを活用した制度設計にあるのではないかと思います。(メカニズムデザインという言葉の方が適切なのかしら。)データマイニング技術の小さな差がビジネス上大きな差を生む領域はレアで、データマイニング結果をどうブレンドしてどう使われるかが勝負を分けていることが圧倒的に多いと思う。数字をビジネスに落とし込むためのルール作りとでもいいましょうか。

たとえば、5年くらい前までのアドネットワークというのはコンテンツマッチの精度が云々という議論はあったのだけれど、結局は広告DBがどれだけ充実させられるビジネスの仕組みなのかの勝負だった。そして勝者のみポジティブフィードバックに入る。(ちなみにコンテンツ認識技術と広告とのマッチングというのは全くの別物。前者がピュアな技術。)それが、行動ターゲティングによってルールが根底から覆る。さらに、オーディエンスターゲティング×RTBによってもう一回根底からひっくり返った。あっという間に。オーディエンスが何に興味関心を持っているかを判別するのはピュアな技術だけど、それをどう広告と結びつけていくらで入札するシステムを設計するかはビジネスを知らないとできない。

データマイナーを募集している企業の多くはデータを分析できる人がいないから採用したいのだと思いますが、採用するときにはここを間違えると痛い目に遭うと思います。ビジネス感覚の無い/ビジネスに興味の無いデータマイナーを雇うと苦労するし、逆に天才的頭脳を持っていない僕ら一般のデータマイナーはビジネスをわかってないとブームが去った後に路頭に迷っちゃうから現場に出ましょうねと。