このページの本文へ

ここから本文です

IT

情報学研、ツイッターをリアルタイム解析し話題抽出する技術開発−顔文字など自動削除

掲載日 2015年08月11日
このエントリーをはてなブックマークに追加


トピック抽出の可視化例。文字が大きいほど頻出度が高い(情報学研提供)


 国立情報学研究所の林浩平特任助教、河原林健一教授らの研究チームは、ツイッターをリアルタイムに解析し、活発な話題を抽出する技術を開発した。毎分約6万件のペースで発信される日本全国のツイートを即時に分析できる。今、この瞬間に世界で起きている出来事を直ちに把握できるようになる。

 林特任助教らは、モノとモノを関連づける「関係データ解析」の新たな手法として、途切れることなくデータを解析できる「ストリーミング非負行列分解アルゴリズム」と呼ぶ計算手法を開発した。ある一定の期間にツイートに現れる単語同士の関係を探り、同時に出現するキーワード集団の中で頻発する単語をランキングで表示する。
 そこから、例えば三、四つの単語を抜き出して可視化すると、その期間に最も発信された内容がトピック(話題)として抽出できる。
 従来のトピック抽出法は、新しいデータが来るたびに、繰り返し膨大な計算をする必要があり、リアルタイムな処理が困難だった。また、無差別かつ大量に一括送信される「スパム」を排除することもできなかった。
 これに対し、同アルゴリズムは新しいデータと既存のデータとの差を1回計算するだけでよい。処理速度を5―250倍に向上し、リアルタイム処理を実現した。さらに、同じ文章が大量に複製されたツイートや、顔文字などを自動で削除する手法も開発。ノイズを減らした上で高精度に分析が行える。


本コンテンツをご覧いただくには最新のAdobe Flash Playerが必要となります。
お持ちでない方は、下のバナーよりダウンロード・インストールしてください。

Get Adobe Flash player

powered by keywalker

より深く、より広い情報を目的、用途別にお届け

おすすめコンテンツ一覧

技能五輪国際大会

技能五輪国際大会

「技能五輪国際大会」有終−金5個獲得で日本は3位

業界展望台

業界展望台

高効率を追求する―省エネ機器&ソリューション

職場なでしこ

職場なでしこ

三菱重工、小学生から高校生対象にイベント開催

彩々新製品

彩々新製品

WHITE、本格的なVRが楽しめる段ボール製ゴーグルを発売

元気印中小企業

元気印中小企業

顧客ニーズが生み出した加工するCAD屋 [コダマコーポレーション]

工業用地分譲情報

工業用地分譲情報

集積進む「神戸医療産業都市」−ポートアイランド

スマートグリッド

スマートグリッド

竹中工務店、稼働中ビルをクラウド化−複数建物にシステム導入視野

地域応援隊

地域応援隊

はばたけ、備後オリジナル―備後産業図鑑2015

産業広告

産業広告

中小企業から大手企業まで、多彩な産業広告をカテゴリー別に毎日紹介

職場百景

いまどき職場百景

「消費増税の影響、すでにありますか?」

Twitter

日刊工業新聞BusinessLine(Nikkan_BizLine)