AR三兄弟がAI技術「A3RT」を駆使して作った「文豪カメラ」って!?

2018.03.30

カテゴリー：
TOOL

Sponsored By 株式会社リクルートテクノロジーズ

AR三兄弟がAI技術「A3RT」を駆使して作った「文豪カメラ」って!? — つくっていただいた「文豪アプリ」にちなんで、文豪らしいポージングをする、通りすがりの天才。

第4次産業革命と言われている現代。その中心となる技術のひとつに「AI」、いわゆる人工知能があります。

これまでもAIは開発・研究が進められていましたが、昨年発売され話題になったスマートスピーカーにより、身近な存在となりました。

しかし、まだまだAIを使いこなせる人は少ないというのが現状。一般の人がAIの恩恵を受け、その便利さを実感できるのはまだ時間がかかるのではないかと思っていました。

そこに登場したのが「A3RT」（読み方：アート。「ANALYTICS & ARTIFICIAL INTELLIGENCE API VIA RECRUIT TECHNOLOGIES」の略）です。これは、リクルートテクノロジーズが提供している、AIのAPI群。簡単に言えば、リクルートテクノロジーズが独自に開発した、AI技術です。

これまではリクルートグループ内で活用されてきましたが、一般にも公開されています。つまり、誰でもこのA3RTが使えるようになったのです。しかも、無料です。

「AIを使いたいけど自分で開発するのは難しいから諦めよう」「AI関連のAPIは値段が高いから」と思っていた開発者も、A3RTを使えば自分のプログラムにAIを組み込むことが簡単になります。

そこでライフハッカー［日本版］編集部では、このA3RTを使って何かプログラムを作ろうと企画。しかし、編集部にはプログラミングができる人間がいません。そこで、“通りすがりの天才”の二つ名でも知られる、開発ユニット「AR三兄弟」の長男・川田十夢さんに依頼。決して「A3RTとAR三兄弟の字面が似ているから」という思いつきでお願いしたわけじゃありません！

川田さんは、数々のプログラム開発や本の執筆を行っているほか、テレビ番組「情熱大陸」の出演やJ-WAVE「INNOVATION WORLD」のメインナビゲーターも務めるなど、マルチに活躍されています。その川田さん、A3RTを使ってどんなものを作ってきてくれたのでしょうか？

AR三兄弟がA3RTで作った“文豪カメラ”で気分は文豪！

Video: 木原基行

「こちらです」

川田さんは、A3RTを使って開発したというiPhoneアプリを起動しました。

「“文豪カメラ”というアプリです。かつて近代を彩った文豪が現代のものを見たらどういう文章を書くのか、を実現しています」

簡単に使い方を説明しましょう。

まず、「文豪カメラ」を起動します。すると、文豪の名前が一覧表示されます。

文豪の名前を選ぶと、カメラエフェクトも変化。文豪の雰囲気に合わせたエフェクトになっています。梶井基次郎ならちょっと檸檬（レモン）色になっていますね。

そして、レンズを被写体に向けます。今回はあらかじめ用意した画像を写しました。すると、画面内のいくつかのものにタグが表示されます。このタグの表示は、A3RTの「Image Search API」を使っています。

このなかから、いくつかタグをタップして選択します。そして撮影をすると、ササササッと万年筆で文字を書いている音が流れ、文章が作成されます。この文章作成の部分は、A3RTの「Text Suggest API」を使っています。ちなみに、この文字を書いている音は、実際に川田さんが万年筆で紙に字を書いている音を録音したもの。こだわりが感じられます。

作家名を変えると、その作家が書いたような文章になります。フォントも作家ごとに変えているそうです。これも川田さんのこだわりです。

「二階建て」「道路」を選択して梶井基次郎で文章を作成すると

「二階建ての道路はその重檸檬だった」

となりました。ちょっと謎なところもありますが、檸檬（レモン）が入っているところが梶井基次郎らしいですね。

江戸川乱歩を選択して、画像から「象」「女性」「背中」というタグを選択。そして撮影をすると、こんな文章が生成されます。

「女性を乗せた象は、その男と同時に、今ばかりの大事業を取り出して、この大事業は何かの意味のためにそこの隅に、それを節穴でその辺にまるで異様に見えます」

何か事件の匂いがします……。用意されている文豪は、宮沢賢治、ルイス・キャロル、梶井基次郎、太宰治、エドガー・アラン・ポー、江戸川乱歩、高村光太郎など。ARとA3RTを融合させた、おもしろいアプリです。ちょっとした文豪気分が味わえますね。

さて、このアプリはどのように作られているのでしょうか。川田さんにお話を伺いました。

2つのAPIを駆使して3日で完成

――今回作っていただいた“文豪カメラ”ですが、具体的にどういうAPIが使われているのでしょうか。

アプリを起動してカメラで写した画像の上にタグが出ましたが、あれはA3RTの「Image Search API」を使っています。これは画像から関連ワードを検索したり、言葉から関連画像を検索したりできるAPIです。今回はこれを、画像を言葉に変換する機能として使っています。まだ機能が限られているので、今回はサンプル画像を使いました。現時点ではタグが出力されるだけで画像上に配置はできないので、それはこちらで座標を決めて表示させています。

――選択したタグから文章を生成する部分は？

「Text Suggest API」を使っています。教師データとして与えた文章を学習してオリジナルの文章を生成するAPIです。なので今回は、著作権フリーの青空文庫の文章を作家ごとに大量に学習させました。そこに単語、または短い文章を与えると、文章を生成して出力してくれます。

180323_a3rt_01_10A2632 — 「Text Suggest API」の使用例。宮沢賢治の文体を学習したものに、「ライフハッカーを読めば」から続く文章を出力してもらった。

――その2つのAPIを基本に、川田さんがARやその他の技術を組み合わせてできたものが、文豪カメラということですね。

以前から文豪カメラは作りたかったんですよ。ただ、AIを扱うのはたいへんで。でも、A3RTは簡単なんです。このアプリも3日くらいでできました。

手を動かしながらAIが学べることに価値がある

180323_a3rt_13_bungo-camera01 — 今回開発していただいた文豪カメラのフィルタ一覧。

――実際に今回A3RTを使ってみていかがでしたか？

最初は名前がAR三兄弟に似ているので、親近感がありましたね。いいネーミングだなと思いました（笑）。一昨年くらいから、AIが騒がれはじめて、いろいろな研究者などが可能性について高らかに語っていますが、具体的に何に使えばいいのか、何が楽しくなるのかという事例が存在しない状態です。本当は、そういうことが求められている段階なんですよね。そこで、このA3RTは手を動かしながらAIについて知ることができるという意味で、すごく価値があると思います。

――A3RTの可能性という点で、今後どんな使い方がされると思いますか？

現時点では、まだImage Search APIで出力されるタグのXY座標が取れなかったり、自分で撮影した画像やリアルカムからの情報を使えなかったりということはありますが、それも時間の問題でしょうね。いざ問題が解決されると、街の景色が一変する可能性があります。たとえば動物園で動物に焦点を合わせたら、自動的にタグ付けされてその動物の生態についての解説が表示されたり、動物のポリゴンデータがダウンロードできたり。楽しいですよね。写生大会の意味も変わってくる。

――動物園や水族館で、音声による解説サービスがあったりしますが、それの発展版という感じですね。

そうですね。ただ、今のサービスは簡単にシェアができないじゃないですか。見たり聞いたりしたものを可読化してシェアするというのが、次の段階では大事なことだと思います。これまでは、体験したことを人間が個々に文章にしていたわけですが、そういう手間を省くものとしてのAIがひとつあると思います。

文豪カメラ以外のアイデアは？

――今回は文豪カメラを作っていただいたのですが、ほかにもアイデアはあったのでしょうか。

膨大にありました。Image Search APIがもっと自由度が高ければ、「この領収書、経費で落ちるか落ちないかカメラ」とか。レシートを撮影すると、経費として認められるかどうかを判断してくれるというものですね。そのほか、お医者さんにもいいと思います。たとえば、お子さんの体に湿疹ができたら、それを撮影して送ると、お医者さんが病院に行ったほうがいいか悪いか判断してくれるといったことを簡単に返してくれるシステムとか。AIを使うことで、仕事の手間を少しだけ軽くするという方向性はありますよね。

そのほかには、「おなかがすいている人のカメラ」というのも考えました。僕は今、おなかがすいているんですけど、テーブルの木目がバームクーヘンに見えるんですよ（笑）。世界をおなかがすいている人の目で見たらどう映るのか。たとえば、商店街を歩いていて、どういうお店に入りたくなるのかとかが可視化されることで、駅から出たときに動線を考えるなど、街の設計に役立つかも知れません。

もうひとつが、「ファッションチェッカー」というもの。これは、いろいろなファッション評論家だったら、このファッションをどう評価するかをシミュレーションするものです。着ている服を撮影して、ファッション評論家を選ぶと、その人がどう言うのかということを表示するんです。Aという評論家はシンプルな服装を嫌い、Bという評論家は同系色が好き、Cという評論家はスパッツを履いている人に優しいとか、そういうデータをAIに読み込ませておけばできると思います。扱うデータは色彩がメインになるので、割と判別もしやすいのではと思います。

AIを使って隣の人を楽しませる方法を考えたい

――実際プログラムができる人ならば、A3RTはすぐに扱えるようなもののでしょうか。

そうだと思います。3日でアプリを仕上げるというのは、AR三兄弟の開発力がわりとすごいからなんですけど（笑）。実際、AIのAPIを使うこと自体は簡単ですね。

――今はA3RTのように手軽に使えるAPIがあります。でもAIを使ったおもしろいものがないのは、道具はあるけれどアイデアがない状態という感じなのでしょうか。

そうですね。そういうことを、僕らみたいな人間がどんどん実装ベースで示さないといけない。囲碁や将棋で人間に勝つとか負けるとか、シンギュラリティがどうとか、言いたいことはわかりますが、強さとかだけで技術の話をすると全然おもしろくならないんですよね。どうやって隣の人を楽しませられるかという視点で考えると、もっと具体的に未来を明るくすることができるんじゃないですかね。

AIに「感情の機微」を持たせればより人間的になる

――もうちょっとエンターテインメントなものができると。

今回は文豪カメラということで「作家」をお題に作りましたが、曲を作らせてもいいと思います。たとえば、この象を見てバッハだったらどういう曲を作るのか、とか。データとして楽譜を学習させておけばできると思います。

人が何かを作るときは、そのとき見聞きしたものに対して影響を受けているはずなんです。その相関関係を分析してAIに入れていくと、いま21世紀で起こっている社会的事件を、バッハが見たらどんな曲を書くのかということもできるようになると思います。

――そのために今やるべきことは何でしょうか。

作家の当時の社会状況や生活環境を把握してAIに入れることでしょうか。先ほどの文豪カメラに足りないところは、作家がそのときにどう感じていたかということ。内面的な状況と社会情勢なども情報として持たせることができれば、完全に現在と接続できると思います。

――そういう情報を持たせることはできるのでしょうか。

簡単にできると思います。たとえば、宮沢賢治が「春と修羅」を出したとき、直前の社会状況などに何かしら影響を受けていると思います。自らの浮かばれなさも含めて。そういう作家個人にとっての歴史のようなものもAIにデータとして入力して、宮沢賢治の作品の発表年数と紐付けることで、さらに具体的な文章が生成されるはずです。そうなるとすごいことになりますよね。

人工知能がたいしたことないと言われることもありますが、ちょっと違うんです。データがまだ不足していますし、具体的な使い方をイメージできている人が少ないと思います。

――今は、AIにいろいろなデータをインプットしていく段階なのかもしれませんね。

そうです。AIは、どちらかというと冷静な、プログラミング的な、物事を積み上げて考えていくのが得意です。そこにあえて人間的な直感や感情、好き嫌いなどをデータとして与えたほうが、より人間らしくなるということです。感情の機微に相当するものが、AIにはまだないですからね。

AIの敷居は下がった。あとは具体的な例を示す時期

――A3RTをリクルートテクノロジーズが公開した意義というのはどう感じていらっしゃいますか？

リクルートグループの財産というのはデータベースだと思います。そういう企業がデータを運用するツールを無料で提供しているというのは興味深いですね。せっかくデータもツールもあるので、みんなに使ってもらっておもしろいものを作ってもらおうという感じなのではないでしょうか。

――今後A3RTに期待することはありますか？

各APIをカスタマイズできる自由度ですね。AIを手軽に使えるという点で、敷居は下がっているんですが、その点はまだ改善の余地を感じました。記事で終わるのではなく、もう少し踏み込んだ形で僕らのような外部の開発ユニットと接続して、より具体的に実装可能なショーケースを増やせばいいと思います。こういうツールがあって、これらを使ったらこういうものができましたというように、お題と答えを提示することができれば、もっといろいろな層の人たちがAIを使いたくなるはずです。

誰もが無料でAIを使える時代がやってきた

180323_a3rt_14_bungo-camera02 — 現在準備中だというニュー文豪カメラ。

川田さんに作っていただいた文豪カメラは、随所に川田さんのこだわりが詰め込まれた、とてもおもしろいアプリでした。3日で作成されたとは思えないほど完成度が高かったのですが、その完成スピードの一端を支えているのが、「A3RT」であることは疑いようもありません。

冒頭の繰り返しになりますが、AIを使って何かを作りたいと思っても、ゼロからAIのプログラムを作りあげるのはとてもたいへん。かといって、AI関連のAPIは高額なものが多く、個人がちょっと試しに使ってみようという気にはならないものがほとんどです。

しかし、A3RTは無料で公開されており、誰でも登録さえすれば使うことが可能となっています。つまり、「誰もがAIを使える」時代がやってきたのです。

もちろん、使いこなすにはそれなりにプログラミングの知識がないと無理ですが、金額の問題で諦めていた人ならば、そこを簡単にクリアできます。川田さんがインタビュー中におっしゃっていましたが「AIの敷居が下がった」のです。

すでにAIを使ってプログラミングをしている人も、これから始めようとする人も、「A3RT」は力強い味方となるのではないでしょうか。

Image: A3RT , AR三兄弟

Photo: 木原基行

Source: A3RT

■「Image Search API」で使用した画像のライセンスについて

画像とテキストの相互検索モデルにはMS COCOの画像データに対して日本語のキャプションを付与したデータセットである「STAIR Captions」を利用しております。

https://stair-lab-cit.github.io/STAIR-captions-web/

Yuya Yoshikawa, Yutaro Shigeto and Akikazu Takeuchi. STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset. Annual Meeting of the Association for Computational Linguistics (ACL), Short Paper, 2017.

このAPIで利用している画像は、MS COCOにて収集/アノテーション対象となった画像です。個々の画像のライセンスは、クリエイティブ・コモンズまたはFlickrの"no known copyright restrictions"により規定されています。表示されるimgタグ内のaltには画像URLとそのライセンスを記載しており、下記ライセンス表示と対応しています。

・Attribution-NonCommercial-ShareAlike License: http://creativecommons.org/licenses/by-nc-sa/2.0/

・Attribution-NonCommercial License: http://creativecommons.org/licenses/by-nc/2.0/

・Attribution-NonCommercial-NoDerivs License: http://creativecommons.org/licenses/by-nc-nd/2.0/

・Attribution License: http://creativecommons.org/licenses/by/2.0/

・Attribution-ShareAlike License: http://creativecommons.org/licenses/by-sa/2.0/

・Attribution-NoDerivs License: http://creativecommons.org/licenses/by-nd/2.0/

・no known copyright restrictions: http://flickr.com/commons/usage/

三浦一紀