LINEのAI・機械学習の取り組みを一挙紹介〜顔認識入場や電話予約対応AI、不審ユーザ認知など実現

先日のヤフーとの経営統合での記者会見で「AIカンパニーを目指す」と高らかに宣言したLINE。そのほとぼりが冷めぬ中、11月20日に技術者向けカンファレンスLINE DEVELOPER DAY 2019が開催された。

本稿ではKeynoteスピーチ(オープニング・セッション)で発表された、同社のAI・機械学習関連のトピックを中心にお届けする。

事前登録された写真から、タブレットで顔認識と入場登録可能

会場に到着後、まず目を引いたのが入場登録の顔認証システムだ。事前にLINE経由で写真を登録したうえで、受付にあるiPadを覗き込むと、写真データをもとに顔を認識し15秒程度で入場登録を完了できる。

「AIカンパニー」としての位置づけを強調

今回のKeynoteスピーチで特徴的だったのは、2018年に引き続きAI技術そのものにフォーカスした発表がトップを飾ったことだ。スピーチ冒頭でもパク・イビンCTOは、同社のビジョン「LIFE with LINE」に触れ

1. LINEプラットフォームへのさまざまな機能の接続
2. AIを通じた良質な体験を自然な形で提供する

という、同社がよりAI技術へ注力していく方針を示した。

LINE DevDay 2019 Keynote p.5より

LINEのAI技術とノウハウが詰まった 「LINE BRAIN」

スピーチではパクCTOのほか、AI、データ、セキュリティのパートごとに3名が登壇した。「Natural Experience with AI」と題し、同社のAI技術への取り組みを語ったのは砂金(いさご)信一郎さん(同社LINE BRAIN室 室長)。

本パートは今年6月から提供している「LINE BRAIN」の説明から始まった。

LINE BRAINは、同社がさまざまなサービスを提供するうえで培ったAI技術を、他の企業も簡単に利用できる、各種サービスの総称だ。日本語を含むアジア系言語に対応し、各国の文化に合わせた行動データ分析やカスタマイズが可能なことが強み。米国や中国との競合との差別化を図るという。

自ら学習データを作り認識精度を高める「AI OCR」

続いて、LINE BRAINが提供するAI OCR、自然言語処理と動画解析の事例に触れた。

OCRでの文字認識で、LINEは機械学習で自動的に学習データを生成する手法を用いることで、ICDR(認識技術を競う国際的な大会)で他の参加チームを大きく上回る成績を残した。

自動生成の利用例として、データ自動生成機能を使ったフォント作成への挑戦事例を紹介。

日本語はかな・カタカナ・漢字が混在するため、フォント作成に通常数千字もの手書き文字が必要だ(実際に、過去にインターネットで話題になった「手書き風レポートマシンプロジェクト」の作者はフォント作成のために7000字以上の文字データを入力した)が、同社の自動データ生成機能を使うことで、500字程度でフォントが作成できたという。

――砂金氏
「OCRに限らず、さまざまなAIに応用できるよう、データ生成技術やテスト技術に力を入れ、より高度なAIを実現したいと考えています」

レストラン予約に特化したAI「LINE AiCall」

自然言語処理技術を使った事例として紹介されたのは、レストランへの予約電話対応に特化したAI「LINE AiCall」だ。電話での予約受付と簡単な問い合わせ対応を、すべてAIが対応する。

電話回線の音声を認識する技術と、自然な会話を実現するための音声合成技術に加え、予約のために必要な情報を引き出す会話生成技術を組み合わせているという。

LINE AiCallの実証実験として、11月20日から「俺のGrill&Bakery 大手町」で自動予約受け付けを開始。固定電話からの予約にAIが対応する。

(ネット予約サービスが充実している昨今、「電話予約のニーズは多くないのでは?」という疑問が湧くかも知れないが、別のセッションで「予約の6割以上が、店舗の固定電話で確約する」と発表されている)

――砂金氏
「シンプルな機能であっても、ユーザの役に立つものを作ることが大切だと考えています。研究のための研究ではなく、自然なユーザー体験を実現するAIを目指したい」

具体的な用途は述べられなかったが、スマートスピーカー、AIトーク以外にも応用可能な技術ということだ。

カンファレンスのリアルタイム字幕が実現?自然言語処理を利用した動画解析

自然言語処理を利用した技術として、動画解析技術の進捗も紹介された。

LINE DevDay 2019 Keynote p.32より

動画解析では複数の話者を区別し、いつ誰がどういうテーマを話していたのかを解析することが可能。あわせて音声認識によりキャプションを生成し、その精度は「たまに間違える程度」(砂金氏)だという。

怪しい動きをするユーザーを機械学習で認知

セキュリティのパートでも、機械学習の活用事例としてLINEペイ、LINEコインの還元サービスなどを利用した不正行為を防ぐ取り組みが発表された。

利用者の残高やポイントの利用状況など、さまざまなデータを組み合わせて機械学習することで、全体の取引のデータから、「特徴的な怪しい行動パターン」を見つけだせるという。

LINE DevDay 2019 Keynote p.59より

大量にポイントを入手し、ポイントを一箇所に集めて現金化するという動きや、組織犯罪やマネーロンダリングの疑いがあるアカウントを知ることができる。

機械学習でフェイクニュースを見抜く

同じくセキュリティのパートで、機械学習でフェイクニュースを見抜くサービスも紹介された。

LINE DevDay 2019 Keynote p.62より

台湾のLINEユーザ向けに、ネット上のフェイクニュースを見抜く「ライン訊息査証」を展開。過去のニュースや情報を教師データとして分析し、情報のリンクをLINEアカウントに送るだけで真偽を判定するという。

――市原尚久氏(サイバーセキュリティ室 室長)
「機械学習を積極的に活用していき、セキュリティや社会の課題に挑んでいきます」

ソニーが新組織「Sony AI」を設立、“食”領域での活用を狙う

ソニーは11月20日、日米欧グローバルに拠点を置く新組織「Sony AI」の設立を発表した。

Sony AIでは、ソニーグループのもつイメージング&センシング技術、ロボティクス技術や映画・音楽・ゲームなどのエンタテインメントの資産を掛け合わせ、すべての事業領域における変革と、新たな事業分野の創出に貢献することを目標としている。将来的には、ソニーの事業ドメインの枠を超え、世界規模の課題解決に対する貢献へとつなげていくことも目指している。

フラグシップ・プロジェクトは、ゲーム、イメージング&センシング、ガストロノミー(食)の3領域。注力分野にガストロノミーを挙げた理由について編集部がソニーに対し取材したところ

「ガストロノミーは、非常に広範なマーケットであり、“食”という人類にとって不可欠な領域。ソニーは『クリエイティビティとテクノロジーで世界と感動で満たす』を“食”という世界で実現することを目指して検討をすすめる。我々はクリエーターに近づくという視点で、シェフのクリエイティビティを拡張する目的で、AIとロボティクスを活用することを考えている」(ソニー広報担当者)。

なお、ガストロノミーについては、今年3月に“新しい可能性”としてAI×ロボティクスのプロジェクトを開始していた。

一方で、ソニーグループが抱えるゲーム「PlayStation」、スマートフォン「Xperia」、デジタル一眼カメラ「α」シリーズへの展開などについては、具体的な回答は得られていない。

ソニーは今後、プロジェクトの具現化や研究の推進に向け、世界中からAIリサーチャーやAIエンジニアを招へい・採用していく。

テクノロジーは何をもたらす?不動産業界におけるIT活用の今と未来

あらゆる産業の中で特にIT活用が進んでいないといわれている不動産業界。日本の不動産業界は特にIT活用に消極的で、FAXでの住宅情報の受け渡しや、電話での内覧調整が当たり前の状況だ。

厚生労働省の発表によると、日本の不動産業界における労働投入量あたりのIT投資はアメリカの10分の1足らずで、世界的に見ても特異なほどアナログな環境だとわかる。

この現状に、ディープラーニングを用いることで効率的にVR空間を作成し、オンラインで中古物件を内覧できるシステムを開発することで一石を投じようとしている企業が株式会社スタイルポートだ。スタイルポートの前身であるスタイル・リンク株式会社は、不動産投資のアドバイザリーサービスを提供するプロフェッショナルファームとして2011年に設立されたが、現在では40名の社員のうち、7割がエンジニアのIT企業へと変貌を遂げている

プロフェッショナルファームとして成功していたスタイル・リンクがIT企業に転身するまでの経緯から、目下開発中の中古物件のVR空間化サービスを通じてスタイルポートが作り上げようとしている未来像に至るまで、代表取締役で創業者の間所 暁彦氏に話を伺った。

世間がIT化を進めるなか、ティッシュを配り続ける不動産業界に焦りを感じた

1991年から20年以上にわたり、不動産売買の第一線で活躍を続け、スタイルポートの前身であるスタイル・リンクを創業した間所氏。創業当初は不動産投資のアドバイザリーを行っていたというが、いったいどのような経緯で不動産業界特化のIT企業へと経営の軸を移すに至ったのだろうか。

――間所
「不動産業界はみなさんの想像をはるかに超えるほどアナログな業界なんです。依然としてFAXが現役で使われていますし、財閥系の企業ですらいまだに街頭でティッシュ配りを続けています。他の産業がIT活用による営業の効率化に舵を切るなか、不動産業界では泥臭い営業スタイルがもてはやされ続けているのが現状です。

不動産の売買は人生に一度あるかないかという大きな買い物ですから、単純に営業を効率化すればいいというわけでもないですし、個人のつながりを原資に経営している不動産会社が多いので、業界全体でIT化を進めるのが難しいということは理解していました。ですが、IT導入で業界特有の課題を解決していきたいという志に賛同してくれる有志が集まってきてくれたため、IT企業化へと舵を切りました」

IT企業化を決めた間所氏は2015年から新築マンションのVR内覧システム「ROOV」の構想を練り始め、2016年にスタイルポートを設立し本格的に開発を始めた。

VR内覧システムROOV

そして今、構想から4年の時を経て、満を持してサービス提供が開始され、市場から大きな反響を得ている。

――間所
「新築マンションの購入は数千万円からときには数億円という非常に大きな買い物です。そのため、内覧は一人ひとりの顧客が複数回行いますし、1回あたりの内覧は平均で2.5時間程度かかります。

この内覧を効率化したうえで顧客体験を向上させるには、物件を忠実に再現したVR空間を作ることが最適でした」

不動産業界の抱える大きな課題のひとつが、営業の効率化。不動産売買における通常の営業では、顧客が仲介業者を通して内覧を予約し、実際に物件まで赴いたうえで接客が始まる。この一連のフローには営業担当が必ず同伴しなければならないため、営業担当の負担が大きくなりがちだという。

上記の課題を解決するために生まれたROOVは、実際の物件を忠実に再現するだけでなく、ユーザーのライフスタイルに合わせて自由に家具を設置できるほか、VR空間内を動き回れる仕様になっている。

ROOVの導入は以下の4つの利点を生むという。

  • 接客可能人数の増加
    通常2.5時間かかる接客を効率化できるため、販売員の1日あたりの接客可能人数が増加する
  • 物件への集客力向上
    モデルルーム来場者の再来率の向上に繋がる
  • 顧客満足度の向上
    図面などの資料や購入希望とは異なるタイプ、かつ過度に装飾されたモデルルームといった実際の生活が想像しづらい情報ではなく、ユーザーひとりひとりに合わせた空間情報を提供できるため、購入前の顧客満足度が向上する
  • コスト削減
    VR空間をライフスタイルに合わせて自由にアレンジできるため、モデルルームの設営、撤去コストが削減される

    中古物件の売買ハードルを取り払うために

    スタイルポートはCADデータから効率的にVR空間を作成する新築マンション向けのシステムを開発する一方で、中古マンションの内覧向けにも同様のシステムの開発を開始したという。

    中古マンションは新築マンションと違い、物件の間取りに関するデータが残っていない場合が多いが、スタイルポートは画像認識技術とディープラーニングを応用し、VR空間を作り上げようとしている。

    中古物件の写真を撮影し、VR空間上に間取りを生成していく

    しかし、中古物件の内覧システムの構築は間取り図や詳細情報が欠落しているケースが多いため、新築物件用のシステム構築と比較すると難易度は高くなりがちだ。間所氏はなぜ、高難度のプロジェクトに取り組むことを決めたのだろうか。

    ――間所
    中古物件の市場は近年拡大を続けており、首都圏だけでも年間37,000以上の中古マンションが売買されています。ですが、中古物件の売買にかかる内覧にはさまざまなハードルがあります。もし、それらのハードルを無視できるようなシステムがあれば、中古物件流通市場はさらに拡大していくはずです」

    間所氏によると、売買される中古物件の約6割は居住中の物件で、所有者は売却予定の物件に住みながら内覧を受け入れる必要がある。そのため、所有者のプライバシーを守りながら売却を進めることは困難だという。さらに、所有者は休日を返上し、内覧者の対応をしなければならないため、日常生活への負担も大きい。他にも、購入検討者は生活感に溢れた空間から家具がない空間を想像し、検討を進めなければならないという、購入検討者が感じるハードルも存在している。

    上記のような売買ハードルを取り去るのに、仮想空間での内覧は現実的な選択肢となる。だが、中古物件のVR空間を構築するために必要なデータを補完する画像認識モデルを作り上げるには、膨大な画像データとそれを素早く処理するための高速演算リソースが必要になってくる。

    中古マンションは新築マンションと比べて取引あたりにかけられるコストが低いため、開発におけるコスト削減が肝要になるが、スタイルポートは自社で保有していた中古物件の画像データとGMOインターネット株式会社が提供しているNVIDIA®社の「Tesla® V100」を採用し、ディープラーニングに最適な高速演算リソースを提供する「GPUクラウド byGMO」を利用することで開発コストを抑えながら開発に挑んでいるという。

    ――間所
    「中古物件の画像データは他の事業を展開しようと考えていた際に収集していました。そのため、サーバーコストが開発における大きなネックでした。

    GPUサーバーの確保に向けて、さまざまな大手企業のクラウドサーバーを検討しましたが、どれも従量課金で、コストが莫大に膨れ上がってしまう可能性がありました。GMOインターネットの「GPUクラウド byGMO」はコストが低いうえに月額課金のため、安定した事業計画が立てられることから採用に至りました。

    この選択により、現時点では開発途中の段階ですが、計画通りのコストで開発を進められています」

    新規事業開発では、コスト面が問題となり、プロジェクトが頓挫するケースが多々見られるが、スタイルポートはGPUクラウド byGMOを利用することで、円滑にプロジェクトを進められているという。

    居住者の生活インフラを目指す。売買だけでない可能性の模索

    鋭意開発が進む中古物件のVR内覧システムだが、スタイルポートが考える不動産×ITの未来は売買の領域に止まらない。

    ――間所
    「現在は、物件売買の省力化とユーザー体験の向上に向けた開発を進めていますが、私たちが目指す究極のゴールは居住者の生活インフラの構築です。

    家具や雑貨などを含めて自宅を完全にコピーした仮想空間を構築し、自宅内のあらゆる情報にオンラインでアクセスできるようになれば、自宅の不具合をデバイス上で確認し処理できるようになることで、生活の質は劇的に向上するはずです。

    居住者にとって、なくてはならない存在を目指し、開発を進めていきます」

    AIの活⽤事例を探せる検索プラットフォーム「e.g.」を発表します

    レッジは、AI活用事例の検索プラットフォーム「e.g.(イージー)」を開発し、Open-β版を本日11月18日にリリースしました。

    2020年初頭に正式版としてのサービス提供開始を予定しています。

    「e.g.」とは?

    e.g.は国内外のAI活用事例を網羅的に集め、分かりやすく解説した検索プラットフォームです。ユーザーは事例を無料で検索・閲覧・保存することができ、事例掲載企業への問い合わせもe.g.上で可能です。

    事例は大きく業界別、用途別、技術別の3つの要素で絞り込むことができ、ユーザーは求めている事例に短時間でたどり着くことができます。

    e.g.の特徴

    • 利用料無料
    • 事例数国内1位(※自社調べ、400件)
    • 業界・用途・技術の掛け合わせで検索可能
    • 事例掲載企業への問い合わせもe.g.上から可能(※許可をいただいた一部企業様のみ)
    • 気に入った事例を保存できるClip機能
    • 事例ページをそのまま共有できるシェアボタン

    AI導入検討層が「事例を探せない」という問題

    ビジネスにおけるAI導入が進んでいます。しかし、矢野経済研究所の調査によると、国内民間企業のAI導入率は2.9%と、未だ多くの企業がAIの恩恵を受けているとは言えない状況です。

    レッジでは、これまでのAIコンサルティング事業、メディアやイベント運営を通して、AI導入検討企業の方々から、以下のような質問を多く受けてきました。

    • AIで何ができるのか分からない。どうやって勉強すればいいのか?
    • ◯◯業界でのAI事例はどういったものがありますか?
    • 良いベンダー知りませんか?

    しかし、いずれも基礎的なリテラシーを持っていなければ、検索して解決するのも難しく、「何がわからないのかわからない」状態となってしまいます。

    企業がAIを自社のビジネスに導入する際、必ずと言っていいほど、まずは先行する他社の事例から探し始めるのが常です。

    しかし、これまでAI事例はそもそも世に出ている数が少なく、また網羅されていないため、担当者はメディアを見たり、セミナーに参加したりすることでしか事例を探すことができませんでした。

    個別で事例を見つけたとしても、ひとつひとつが難解なため、読み解いていくのが難しいといった問題や、ひとつのサイトでまとめて閲覧することができないために、ひとつのフォーマットで読みたいのにも関わらず、別々のフォーマットで閲覧せざるを得ない、またはひとつのフォーマットに手作業で統一し、それを会議で閲覧するなどの手間がかかっていました。

    そのようなニーズを踏まえ、AI活用事例がひとつのフォーマットに統一されており、かつ検索作業もひとつのプラットフォーム上で行えるようにする。かつ産業・用途・技術の3つの軸で探せるようにすれば、AI担当者の負担は大きく軽減するのではないか。そう考え、e.g.の開発に至りました。

    e.g.の名前の由来

    「e.g.」という名前は、ラテン語で「例えば」「例を挙げると」を意味するexempli gratia と、“簡単に検索ができる”ということで、英語のeasyをかけています。

    今、AIでどんなことができるのかを事例を通して知る。事例を知ることで、自社のビジネスにどう活かすのかを考え、一歩目を踏み出す。その一歩目を踏み出すサポートをするサービスです。

    事例掲載にご協力いただけるパートナーを募集しています

    今後、世界中でますますAIをビジネスに活用する企業が増えると予想されます。現在の掲載事例数は400ですが、AI活用事例の増加に伴い、事例掲載数もさらに増加させ、AI導入を検討している企業をサポートしていきます。

    また、AIプロジェクトを推進可能な企業やAIツールなど、AIプロジェクトを一歩進める一助となる情報を整理し、データベースをより強固にしていく予定です。

    e.g.への事例掲載や、事例を踏まえたユーザーからのAI活⽤の相談に乗っていただけるパートナーも随時募集中です。詳しくはこちらからお問い合わせください。

    スカイマティクスが博報堂DY系から追加調達、総額約10億円へ──週間AI業界資金調達ニュース

    Ledge.aiでは、AI業界の資金調達ニュースを毎週金曜日にお届けする。11月11日〜11月15日のニュースは以下の通り。

    先週の記事はこちらから。

    スカイマティクス、追加資金調達により総額約10億円の資金調達を完了

    調達額
    約1億円(累計10億円)


    調達先
    HAKUHODO DY FUTURE DESIGN FUND
    スカイマティクスは、産業用リモートセンシングサービスの企画・開発・販売を行う企業。独自の画像処理解析技術・AI技術・GIS技術をコアとし、農業、建設・測量、点検、防災分野向けに業務効率化や意思決定に役立つ、ドローンを活かすためのリモートセンシングサービスをリリースしている。

    関連記事:「勘頼みは終わり」キャベツ農家の出荷量をドローンとAIで予測、その舞台裏

    今回の到達により、今シリーズの資金調達額は10/1発表の資金調達と合わせて総額約10億円となる。調達資金の使途として、引き続き出資企業・ファンドと連携。クラウドサービスの製品開発体制と販売体制強化により、リモートセンシングサービスの実用化と普及を目指していくという。

    Source:PR TIMES

    音声認識とは|最新技術や基礎知識・仕組み・現在の事例を解説

    ディープラーニングの登場やスマートフォンへの搭載により、急速に普及したAI(人工知能)の技術に「音声認識」があります。本稿では、「音声認識」の定義から仕組み、事例、技術動向について詳しく解説します。

    音声認識とは

    Photo by Kristin Baldeschwiler on Pixabay
    音声認識とは、コンピュータにより音声データをテキストデータに変換する技術です。

    人間が言葉をそのまま理解するのに対し、コンピュータは、音響モデルや言語モデルを用いて音声を解析し、認識します。

    音声認識の仕組み


    Photo by geralt on Pixabay
    音声認識の技術は、具体的に「音響分析」「音響モデル」「発音辞書」「言語モデル」の4つの過程を経て、コンピュータが認識します。

    音響分析

    音響分析では、入力された音声データの音の強弱や周波数、音と音の間隔、時系列などさままな特徴量を抽出し、音響モデルで扱いやすい(コンピュータが認識しやすい)データに変換します。

    Ledge.ai編集部にて作成

    音響モデル

    音響モデルでは、音響モデル分析により抽出された特徴量が、どの記号(音素や単語)にどれほど近いのかを学習したパターンと照らし合わせ、整合率を計算します。

    たとえば、「ありがとう」と音声を入力した場合、音声分析により抽出された特徴量を用いて「A-R-I-G-A-T-O-U」という音素になるように、音声を正しい文字にマッチングさせます。

    発音辞書

    音声の最小単位の”音素”ごとにモデル化されている膨大なデータベースから音の組み合わせをピックアップし、「単語」として認識させるのが発音辞書です。

    たとえば、
    ・「A-R-I-G-A-T-O-U」を「A-RI-GA-TO-U」(ありがとう)
    ・「G-O-M-E-N-N-E」を「GO-ME-N-NE」(ごめんね)
    のように、音の組み合わせを「単語化」し、音声モデルと言語モデルを結びつける役割をします。

    言語モデル

    言語モデルでは、膨大な量のデータから単語のつながりを予測判定し、より正確な文章を組み立てます。あらかじめ蓄積したデータから使用する単語の出現率を算出し、単語を文章化します。

    言語モデルで主に利用されるモデルが「隠れマルコフモデル」です。これは、ある文字列に続く直後の文字の出現しやすさをパターン化し、それらの出現確率を定義しています。
    Ledge.ai編集部にて作成
    上図のように、膨大なデータから単語を連結させる確率を出し、文脈が正しくなるように単語を文章化します。

    ディープラーニングで音声認識はどう変わったのか

    ディープラーニングとは、データから自動で特徴を抽出し分類や予測を行う技術であり、機械学習の一種です。

    ディープラーニングの技術を用いた音声認識では、「音響モデル」から「言語モデル」までのプロセスが1つのニューラルネットワークモデルで実装されています。

    たとえば、言語モデルに「私は学校へ」と入力すると、次に出現する可能性が高い「行く」「行かない」などの単語を自動で予測します。

    ディープラーニングの登場によって膨大な情報を処理できるようになり、音声認識の著しい向上につながりました。

    音声認識と自然言語処理

    Photo on max pixel

    音声認識とは、音声情報と言語情報を組み合わせることで、音声を文字に変換する技術です。

    故に、音声からテキストを生成するところまでの機能であり、テキストから意味を抽出し、目的に応じた作業を行う部分までは含まれていません。

    この機能は「自然言語処理」により担われています。

    自然言語処理とは、人間の用いるような自然文を対象とした、言葉や文章のもつ意味を認識、処理する技術です。

    音声認識が使用されている事例

    Photo on max pixel
    音声認識はさまざまなビジネスやサービスに導入されています。

    会議の議事録や営業日報などの記録を効率化する「ProVoXT」

    ビジネスシーンで会議の議事録や営業日報を記録する際、録音音声を何度も聞き返して文字起こしするには多大な時間と労力を要します。

    こうした手間を解決してくれるのがクラウド型議事録作成支援サービス「ProVoXT」です。
    録音した音声をクラウド上へアップロードすることでAI(人工知能)が音声認識を開始し、自動的に文字起こしが行われるため、通常であれば数時間かかる作業を十数分に短縮します。

    参照記事:

    英語のスピーキング評価を自動で行えるAI 「CHIVOX」

    CHIVOXは、アプリに向かって英語を話すことで、正しい発音かどうかをチェックしてくれるサービスです。中国が開発した英語スピーキング評価AI技術で、既に世界132ヶ国で導入されており、日本でも利用されています。

    米式/英式英語の発音基準との比較のほか、発話が流暢かどうか、なども評価できます。また、チャイルドモード、ノーマルモード、ネイティブモードという3種類のモードを持っていることで、幅広い英語力に対応できる強みを持っています。

    参照記事

    音声認識で感情と元気度を解析するAI「Empath」

    Empathは、音声の物理的特徴量を解析することで、言語に依存せず、「喜び」
    「平常」「怒り」「悲しみ」「元気度」を解析するAIです。東日本大震災後、ボランティアのメンタルヘルスケアのために生まれ、アラブ首長国連邦内務省に正式に採用された実績を持ちます。

    現在では、コールセンターのシステムとして、顧客とオペレータの感情を可視化するほか、ロボットへ搭載し、人との自然なコミュニケーションの研究にも導入されています。

    参照記事:

    クラウド上のコールセンター「Amazon Connect」

    「Amazon Connect」はクラウド上にコールセンターを作成するサービスです。自動音声応答やその文言編集、通話の自動録音などの機能を備えています。

    音声認識技術は音声からテキストへの文字起こしや、多言語翻訳に活用されています。

    参照記事:

    ほかにも多くのサービスに音声認識は使用されています。

    参照記事:

    音声認識の普及と課題

    Photo by mohamed hassan on Pixhere

    AppleのiOSに搭載されている「Siri」やAndroid OSの「Googleアシスタント」など音声認識サービスは生活にも普及しています。リリースされた当初と比べ、音声認識の技術も格段に上がり、今では検索エンジン上でも欠かせない存在となりました。

    一方、こうした音声認識サービスの日本での普及率はあまり高くありません。2018年4月iProspectが行った調査では、「過去6か月以内にスマホの音声認識機能を使用したか」という問いに対し、「使用した」人の平均62%、インド(82%)、中国(77%)と半数を超えるなか、日本は40%と諸外国と比べて低い普及率でした。

    音声認識は、ビジネスや日常生活で大きく活用されています。私たちは日々進化する技術革新を観察し、AI(人工知能)を積極的に受け入れていくことが必要なのではないでしょうか。