ニュース
NTT研究所の日本語解析技術API公開、「語句類似度算出」「ひらがな化」など4種
(2014/12/4 12:31)
NTTレゾナント株式会社は3日、日本語解析技術に関するAPIを「gooラボ」で公開した。同技術は、NTT研究所が開発し「goo」で利用してきたもの。
公開するAPIは、ビッグデータ解析などで必須となる要素技術である「語句類似度算出」「ひらがな化」「固有表現抽出」「形態素解析」の4種類。これらを活用することによって、ビッグデータが日本語で書かれた文章の場合、文字列の集計だけでなく、書かれている内容に基づいた分析が可能になるという。
語句類似度算出は、2つのキーワードに対して、構成単語や音素の情報を踏まえて、その類似度合いを算出するAPI。「トーキョー」と「東京」、「phablet」と「ファブレット」といった、似通った発音を持つ違う表記の語句を、類似度合いにより同じ語句とみなすことができる。
また、固有表現抽出では、文章から人名、地名、組織名などを抽出可能。「鈴木さんがきょうの9時30分に横浜に行きます」という文字列からは、人名として「鈴木」、地名として「横浜」、日付表現として「きょう」、時刻表言として「9時30分」がそれぞれ抽出される。抽出されたキーワードから、SNS上で最近話題になっているスポットを発見するといった分析が可能になるとしている。
ひらがな化は、漢字混じりで書かれた文字列をひらがな、カタカナに変換するAPIで、子供向けコンテンツの作成に利用できる。形態素解析は、文字列を形態素と呼ばれる単位に分割できる。「この商品が大好きです」という文字列から、「この」「商品」「が」「大好き」「です」と分割することで、製品のレビュー記事から、どのような表現で評価されているのかといった分析が可能になるとしている。
なお、APIを公開した背景として、gooの持つウェブ検索にかかわる技術・ノウハウや、NTT研究所の持つ先端技術が、自社コンテンツを提供する他の企業や、ビッグデータ解析技術を求める企業において活用が見込めるためだという。同社では、今回のAPI公開を第1弾としており、gooの持つ技術・ノウハウを順次公開していくとしている。
URL
最新ニュース
- Googleが「reCAPTCHA」刷新、多くの場合で歪んだ文字の読み取りを不要に[2014/12/04]
- NTT研究所の日本語解析技術API公開、「語句類似度算出」「ひらがな化」など4種[2014/12/04]
- モダンな通信ネットワーク「Wire」、Skype共同創業者らが新アプリ公開[2014/12/04]
- エレコム、PoE給電対応の法人向け16ポートギガスイッチングハブ[2014/12/04]
- りんかい線でWiMAX 2+が利用可能に、コミケ87の仮設基地局については検討中[2014/12/04]
- Android向け「Opera」最新版、ブックマークの共有が簡単に[2014/12/03]
- ニフティ、メッセージアプリのように共同編集できるメモ・ToDoアプリ「Frognote」[2014/12/03]
- Dropbox、「ビジネス向けDropbox」のAPIをリリースへ[2014/12/03]
- サンワサプライ、スマホ用撮影スタンドがセットになった名刺管理リーダー[2014/12/03]
- Amazon Kindle、洋書での英語学習が捗る新機能「Word Wise」[2014/12/03]
- Twitter、嫌がらせツイートへの対策を強化、ブロック機能の改善も[2014/12/03]
- 京都市による公衆無線LAN、ゲストコードの取得なしにワンタップで接続可能に[2014/12/03]
- 「Firefox 34」正式版公開、動画・音声チャット機能「Firefox Hello」を搭載[2014/12/03]
- ゲームプラットフォーム「Steam」、ゲーム実況に参入[2014/12/03]
- 〜サンタ追跡準備開始のお知らせ〜 NORADが毎年恒例のサンタ追跡サイトを公開[2014/12/03]
- 日本マイクロソフト、iOS/Androidニュースアプリ提供へ、MSNアプリ群6種発表[2014/12/02]
- 「一太郎2015」30周年記念パックには、「一太郎dash」復刻版も同梱[2014/12/02]
- グイン・サーガ読破専用機も〜全集組み込み型電子書籍端末、大日本印刷が発売[画像追加][2014/12/02]
- 「ATOK 2015」2月6日発売、思い出せない単語の入力支援「ATOKナントカ変換」も[2014/12/02]
- iOS向け「Yahoo!キーボード」無償公開、iWnn採用、スワイプで入力モード切替[2014/12/02]