Hatena::ブログ(Diary)

shi3zの長文日記 RSSフィード Twitter

2016-06-03

深層学習をビジネスにしたいと考えている人は必見! 人工知能がビジネス化するときにとるべき国家戦略 10:13

 いったいぜんたい、もともと誰に誘われたのかもはや覚えていないんだけど、経済産業省とその外郭団体である産業総合研究所、いわゆるひとつのサンソーケンというところの人たちに呼ばれて、みんなでよってたかって機械学習というか深層学習を含む人工知能をどのようにビジネス化していくか。ビジネス化するにあたって障害となることはなにか。日本が人工知能に関してとるべき国家戦略はなにか、法整備はどの程度必要で、どの程度は不要なのかといったことをまるごと考える勉強会が始まっていた。


 その名もMLEPこと、機械学習利用推進勉強会だ。うん。長い。役所っぽい。


 来週開催される人工知能学会の全国大会に於いて、MLEPが二枠頂戴して、合計4時間弱にわたって人工知能をビジネス化するとはどういうことか、そしてそのときに発生する知的財産をどう守り、GoogleFacebookなどの欧米列強とどう対抗していくか、といったことを徹底討論する。


 幹事となっているプリファードネットワークスの丸山先生(PFN最高戦略責任者)が音頭をとり、各界のプロフェッショナルを集めた前代未聞の討論会であり、この議論を広く世間にむけて公開したいという丸山先生たっての意向を受けて、不肖、弊社UEIがニコ生中継することを決定した。

https://i.gyazo.com/046f174497024ab6b7b90223f7ca197d.png

【必見】深層学習でどう儲けるか!?ニコニコ深層学習β【人工知能学会全国大会】 - 2016/06/08 15:00開始 - ニコニコ生放送

http://live.nicovideo.jp/watch/lv265242573


 実のところ、深層学習(および機械学習)は、人工知能学会の本流ではない。

 実際には人工知能学会で開催される論文発表の10%以下しか深層学習はテーマとなっていない。


 もともと長い歴史を持つ人工知能学会では、自然言語処理や統計処理などの記号処理や推論といったもの(松尾豊先生流に言えば、「おとなの知能」)が主流で、機械学習や深層学習のような、自動的に学習し、特徴量を自動的に抽出するもの(「こどもの知能」)はどちらかというと異端視されていた。


 いまでも、人工知能の研究者の多くは、深層学習や機械学習を「うさんくさいもの」と思っている人が少なくない。実際、僕の恩師のなかには何人か人工知能を専門とする先生がいるが、彼らは総じて深層学習に興味もなければ知識もない。驚くことに、僕よりも知らないのだ。そして「やってみれば」というと二言目には「ニューラルネットワークはもう何年も前にやったし、さ」と遠い目をする。だから実のところ、むかしから人工知能をやっている人ほど深層学習に疎い。これは国家的危機だぜ。


 ところが今やそうも言ってられなくなった。どうも深層学習くらいしかここ30年で目覚ましい成果らしい成果がないからだ。ちなみに僕は学生の頃から人工知能学会の正会員として毎年論文誌を読んでいてたが、退屈なほど目覚ましい成果がないという状態を十年以上経験している。その僕からみると深層学習の成果はまさしく驚異的であり、ある意味で人工知能に興味はあったけど、横目でウォッチしつつその実どっぷりやってこなかった僕のような立場の人間は先入観なしに素直に「深層学習は凄い」と感じられるけど、どっぷりやっていた人たちからしてみれば「あんなのはズルい。インチキだ」と言いたくなる気持ちもわかる。AlphaGoの打ち筋を見て青くなった棋士たちもまさしく同じような気持ちだろう。


 そして深層学習の登場によって、これまで全くカネになりそうもないと思われてきた人工知能が、いまや急激にカネを産みそうな雰囲気を醸し出している。ところがどっこい、人工知能そのものをマネタイズできた例はない。とりあえず、今のところは。


 Googleがものすごい資本と電力を捧げて、1000台のサーバーをインターコネクトして数ヶ月かけて見つけたのがネコ一匹だったり、鳴り物入りで投入した深層学習を利用した新サービス「Googleフォト」がイマイチ使えないものだったり、どうも世界の最先端を行くGoogle先生ですらも深層学習でひと山当てるのは難しいらしい。まあAlphaGoの中継に挟んだ広告が一番儲かったのかな。


 目下我々は深層学習をビジネス化する方法を模索中である。

 模索中であるというかもはや模索の段階が終わって、実際に利益を出す算段はついてきている。我々は確実に一年以内に純粋に人工知能を利用してお金を稼いでいるだろう。


 そして、これは早めに法律の話しをしておかないと、下手をするとDeCSSみたいにアホな法律ができないとも限らない。


 基本的に政治に興味はないのだが、やっておかないとあとで後悔すると思ったし、なにより日本の役所はビジネスに疎い。ビジネスのことを知らない人たちに法整備を任せていたら、ろくでもないことになってしまう。ここは人工知能をビジネス化する人間として、世のため人のため、そしてなにより自分のため、僕はこの機械学習利用推進勉強会ことMLEPに全面協力することにした。


 深層学習に関する法整備をきちんとしておかないと、日本はこの第四次産業革命・・・松尾先生に言わせれば「農耕の発明に匹敵する革命」において、永久に世界の三等国に成り下がってしまう危険性がある。


 欧米列強はおかまいなしに攻めてくる。しかし日本は、法律的なガイドラインを示さないと、「やばそうなことはやらない」という大企業が多すぎる。コンプライアンスとビジネスが常に対立するような国では、まず役所が「これはやってもOK」というガイドラインを示してやる必要がある。


 たとえば一例を挙げると、日本の大企業では、ネットで無差別にあつめてきた画像データを人力で分類して人工知能に食わせようとすると、コンプライアンス委員会がしゃしゃり出てきて「その画像データの著作権はどうなってるんですか。著作者に許可は取ったんですか」と言いに来る。「アホか。14000万枚だぞ。著作者が誰かもわからんわ」と言い返しても、コンプライアンス委員会としては「著作権が不透明なものを学習データセットにすると将来的な訴訟リスクがあり、学習データは著作権処理がきちんとなされたもの以外は許可できません」と言ってくる。


 一方アメリカでは、全世界の画像をクローリングして、アルバイトが一所懸命になって分類した膨大な画像データ・セットが無償で公開されている。


 GoogleだろうがFacebookだろうが問答無用でこれを利用して学習している。

 もちろん中国のGoogleである百度もそうだ。


 ところが日本の大企業では、まずコンプライアンスがどうのという議論が出てくる。


 こんなバカな足の引っ張り合いをしていたら、欧米のAIに我が国の国産AIはずっと遅れを取ることになる。 


 GoogleやFacebookはもちろん利用者の許可などとらずに、自社の集めた膨大なデータや、自社のサーバーを流れる膨大なメール、メッセンジャー、そして当然、Googleフォトなどの画像、Android端末でやりとりされる全ての情報、そんなものを学習データセットとして自由に使える。



 AIの性能がAIの構造そのものやプログラミングではなく、学習データセットの質によって決まるということはもはやこの世界の常識であり、データを集めて使うという競争がとっくに始まっている。


 GoogleはGmailのユーザがやりとりするメールのデータを学習して、Inboxでは自動的に返信の内容文を提案する仕組みを入れている。


 しかしGoogleに匹敵するデータを持っているであろうNTTドコモもLINEも、コンプライアンス委員会が「メールやメッセージの内容は通信の秘密で守られるべきであり、顧客のプライバシーを侵害するから、それを人工知能に見せるなんてとんでもない」ということになる。僕の知る限り、今に至るまでそうした企業でGoogle並に過激なAIの研究がなされている例はない。やればすぐに成果がでるはずで、今の状況では成果が出たら発表した方が圧倒的に得だからだ。なのにドコモもLINEも、その他のビッグデータを握っているはずの企業も、一切深層学習の話しをしない。トップがその重要性を本当には理解していないのだ。


 学習データセットの生データに著作権やプライバシー権を求めないような法整備または法的見解を示すことがまず重要で、あまたある大企業のコンプライアンス委員会を一発で納得させ、ぐうの音もでない状態にする必要がある。しかも可及的すみやかに。


 そもそも我々は法律ひとつでマイナンバーなんていう、全く非効率的かつ非経済的なものを押し付けられるわけだから、その逆があってもいい。そのためには徹底的に議論しておくべきで、ニコニコ生放送で議論を公開するということは、当然、視聴者からの意見に政府や専門家たちが耳を傾ける用意があるということでもある。要するに一般意志2.0だ。


 というわけで、来週の人工知能学会全国大会は、北九州市で開催されるが、そこに飛び入りで来るのはつらかろうということでニコ生中継を断行することを決めた。ドワンゴのスタッフは遠すぎて中継に来てくれないので、僕が喋るのと中継するのを両方やることにした。


 それくらい真剣に考えているのだ。


 というわけで、深層学習をビジネスにしようと考えている人はもちろん、そもそも深層学習ってなんですか、という人もぜひともご覧いただきたい。


https://i.gyazo.com/046f174497024ab6b7b90223f7ca197d.png

【必見】深層学習でどう儲けるか!?ニコニコ深層学習β【人工知能学会全国大会】 - 2016/06/08 15:00開始 - ニコニコ生放送

http://live.nicovideo.jp/watch/lv265242573


 「深層学習なんだそれ」という人は、毎度のことながら松尾先生のこの本を推薦しておく




 ちなみに先日読んだこの本は



 深層学習のことがなんと1ページも書いてないので、全く深層学習の理解には役立たなかった(帯には深層学習と書いてあるのに全く説明がないというのはどういうことか)。

 というか、人工知能学会という範囲を考えると、むしろこの本の方が主流派の考え方なのでそれを学びたい人にはちょうどいい教科書だ。


 しかしこの本の知識は80年代くらいでとまってる内容であり、基本的に今の人工知能を理解することにはほとんど役に立たない。教養として読んでおくべきはべきかもしれないが。



 最近読んで「これはいい」と思ったのは次の本である。


機械学習と深層学習 ―C言語によるシミュレーション―

機械学習と深層学習 ―C言語によるシミュレーション―


 これは深層学習をC言語で実装することで体験的に理解しましょうという本だ。

 Pythonは便利だし、ChainerやTensorFlowも便利だが、肝心のアルゴリズムが隠蔽されていてよくわからん。そもそも自分の仕事をする環境ではPythonがインストールされていることなど全く期待できない、というプロのエンジニアは相当数いるはずである。


 そういう人からしてみれば、Python固有の工夫が随所に組み込まれたフレームワークは便利だが得体が知れない、気持ちの悪いものという気がする。実際、僕も最初にChainerを触った時はそうだった。


 これに対してC言語でこれを実装するというのは、昔ながらのエンジニアにとってまことにわかりやすい。

 教科書として実に素晴らしい出来栄えである。


 ただし、畳み込みニューラルネットワークの学習はちょっと手抜きをしてるところだけが残念だ。


 ちなみにC++で畳み込みニューラルネットワークを実装したいという人は

tiny-cnn/README.md at master ? nyanp/tiny-cnn ? GitHub

https://github.com/nyanp/tiny-cnn/blob/master/README.md

 こういうものがあるようだ。

 Caffenetからのインポートまで対応している。なにより依存関係がなく、ヘッダーのみというのがいい。

 まだ試してないが、面白そうだから今週中に試すつもり。



 とにかく来週の人工知能学会からの中継はよろしく