スマホが目の代わりになる「Seeing AI」が日本語対応。アプリ開発時のこだわりをシャイフ氏に聞く(西田宗千佳)

重要なのは「即応性」

西田宗千佳
12 時間前 in Ai
192シェア

連載

注目記事

折り畳めてとっても軽い!1万2000円の小型ジンバル「VLOG Pocket」はYouTuber入門におすすめ(小彩 楓)

折り畳めてとっても軽い!1万2000円の小型ジンバル「VLOG Pocket」はYouTuber入門におすすめ(小彩 楓)

小彩 楓, 11月17日
View
世界初の完全分離骨伝導イヤホン「earsopen PEACE」でネクストレベルの「ながら聴き」を体感

世界初の完全分離骨伝導イヤホン「earsopen PEACE」でネクストレベルの「ながら聴き」を体感

View
12月3日、マイクロソフトはiPhone向けアプリのアップデートを行う。アプリの名は「Seeing AI」。視覚障害者をサポートするためのアプリだが、その内容は、AIを駆使した最先端技術の塊。無償公開されているので、多くの人に体験し、その可能性を理解して欲しいと思う。

このアプリについては以前本誌でもレポートしたが、それが新たに「日本語対応」したのだ。今回、Seeing AIの開発主要メンバーの一人である米マイクロソフトのサーキブ・シャイフ氏に話をうかがう機会が得られたので、開発の目的や工夫した点、方向性などを尋ねてみた。

seeingai
▲Seeing AIの開発メンバーである米マイクロソフトのサーキブ・シャイフ氏。BingやCortanaなどの開発にも関わった経験を持つ

スマホのカメラ+AIが「目」として視覚のハンディをカバー

Seeing AIは、簡単に言えば、スマホのカメラを「目」として使い、AIで写っている映像を解析し、その内容を文章とテキストで表示するものだ。

元々はマイクロソフト社内で開かれているハッカソンの中で生まれたものだったが、社内での評価も高く、最終的に製品として提供されることになった。最初のバージョンが登場したのは2017年のこと。機能の中でも一番わかりやすいのは紙幣の認識だろう。カメラにかざすと、紙幣の額を読み上げてくれる。もちろん、裏でも表でも問題ない。

seeingai
▲紙幣を認識し、それがいくらなのかを読み上げることができる

▲紙幣認識の様子をムービーで。ぜひ音声をオンにしてお楽しみください

「日本円は額によってサイズが違いますが、米ドルのようにサイズが同じものもあります。視覚にハンディを抱えていると、識別は大変です。こうしたアプリを使えば簡単になります」とシャイフ氏は言う。

文字の読み上げ機能もある。画面や商品名などの短い文字を読み上げることもできるし、文書を取り込んで読み上げることも可能だ。

seeingai
▲壁に貼られた説明書きや配布された資料、レストランのメニューなどを認識して読み上げられる

▲短文なら瞬時に読み上げ。こんな風に、PCの画面の文字だって読んでくれる

顔認識だってできる。いくつかの写真を撮って登録しておけば、画面の中に入れるだけで「中央から1m以内に西田宗千佳がいます」といった風に認識してくれるのだ。

「実験的機能」と位置付けられているが、風景の認識もできる。以下の写真をご覧いただきたい。ポイントは下のテキスト。「駅の地下鉄列車」と出ている。駅でなにげなくテストした時のものだが、ちゃんと列車が「地下鉄」であることまで見分けている。

seeingai
▲なんということのない風景だが、ちゃんとAIが認識して「駅の地下鉄列車」と内容を見分けている

seeingai
▲キャプション部分だけを拡大。この内容はAIが自動認識した内容で、同時に音声読み上げも行われる

まさに、AIが「映像の中にあるのはなにか」を人間と同じように見分けて、分類や読み上げをすることで、視覚障碍をサポートすることを狙ったアプリなのである。

日常的に使えるツールとするためにAIや使い勝手を工夫

2017年に公開された時には、Seeing AIがサポートしていたのは英語だけだった。だが今回、日本語・フランス語・ドイツ語・スペイン語など5つの言語と紙幣の認識をサポートした。

「アプリをリリース後、どのような国で使われているのかを分析した上で、対応すべき言語を決めていきました」とシャイフ氏は説明するが、日本語への対応希望は特に大きかったようだ。

こうした認識にはマイクロソフトのAIが使われている。だが、そのすべてがクラウドで実現されているわけではなく、クラウドとデバイス内、両方が組み合わせて使われている。

「すべてがクラウドで処理されているわけではありません。理由は、オンデバイスAIを組み合わせた方が即応性は高くなるからです」(シャイフ氏)。

特にSeeing AIでは「即応性」は重要だ。人の目の代わりをするのだと思えば、素早い反応が重要である理由もわかるのではないだろうか。クラウドで処理しても短時間で終わることだが、画像を転送して解析して答えが帰って来るまでには数秒かかることもある。顔認識や紙幣の認識、短文の読み上げなどはデバイス内で処理されているので、ほぼ瞬時に結果が帰ってくるのだ。

一番複雑と思われるのは風景の認識だが、これではいくつものAIが組み合わせて使われている。

「まず画像の中に、どのようなオブジェクトが含まれているかを把握します。その上で、そのオブジェクトが風景の中でどのような位置にあり、どういう意味を持っているかを分析しています。その結果が、読み上げ内容です」とシャイフ氏。

一方で、AIさえあればできる技術ではない、とも説明する。

「バーコードを読み取るのに必要なのは、新しい技術ではありません。しかし商品のどの面にバーコードがあるかを把握し、すばやくバーコードを認識するにはAIの力が必要です。文書を読み上げるためには、文書の縁を理解する必要があります。ここで使われるのはAIではありませんが、過去の多数のアプリで培われた技術が必要。我々にとっては、よりAIを作るための努力と同様に、良い体験を作るための努力も重要なのです」とシャイフ氏は述べる。

使われている技術は、マイクロソフトの各種アプリ群で活用されているものが基本となっており、AIはマイクロソフト・リサーチでの研究結果を活かしたものになっている。

Seeing AIはデモではない。日常的に人々を助けるツールとして開発されており、開発にも多くの視覚障碍者が関わっている。シャイフ氏も視覚にハンディを抱えている。彼ら自身が道具として使えることを考えて、使い勝手や即応性を重視して作られていることがポイントだ。

残念ながら現在のところ、Seeing AIはiPhone・iPadでのみ動く。シャイフ氏は「この先の予定は公表できない」として、プラットフォーム拡大の可能性については「ノーコメント」とする。だが、より多くの人が使えるように、Androidにも対応して欲しいと思う。




広告掲載についてのお問い合わせはad-sales@oath.com までお知らせください。各種データなどはこちらのメディアガイドをあわせてご覧ください。