ネット風評被害をリアルタイムに検知する新しい監視技術

ブログや掲示板、SNSを利用した誹謗中傷など、いわゆる“ネットトラブル”が社会的に注目されるなか、富士通研究所と富士通研究開発中心有限公司(中国・北京)は、風評被害をリアルタイムに検知する新しい監視技術を開発しました。
CGM普及により深刻化する風評被害
世界のインターネット人口は14億人を超え、近年ではブログやSNS、動画共有サイトなどのCGM(注1)と呼ばれる新しいメディアの普及により、個人が不特定多数の人々へ向けてリアルタイムに情報発信することが一般的となってきました。
しかし投稿記事のなかには誹謗中傷の類もあり、たった1つの投稿がまたたくまにネット上に伝播し、適切な対策をとれないままに企業イメージが低下したり、大規模な不買運動に発展するといったケースも珍しいことではなくなってきました。
こうした企業の存続に影響を及ぼしかねない風評被害対策は、CSR(企業の社会的責任)の積極的な推進が企業に求められるなか、リスク管理の最重要課題の1つになりつつあります。
リアルタイム性を欠く従来の風評監視
短時間で広範囲に広まるネット風評被害をいち早く把握して迅速な対策をとるには、これまで以上に風評監視のスピードが求められます。投稿監視技術として、マーケティングの世界では以前から、企業や製品に対するネット上の評判分析に「CGM分析サービス(注2)」が広く利用されており、これを風評監視にも適用しているケースが見られます。しかしながら、CGM分析サービスを風評監視に適用するには、次のような問題がありました。
インデックス生成などの前処理が発生
第一の問題は、従来の風評監視が、インデックス生成(注3)などの前処理を必要とする「インデックス型検索」と呼ばれる技術を用いている点です。ビデオリサーチとニフティの協同調査「ブログサイトに関する共同研究調査」によると、日本国内のブログ投稿数は1日に60~70万件と言われています。
従来の「インデックス型検索」で風評記事を抽出するまでには、大きくわけて4つのステップを通ります。
- 最新Web記事の収集
- インデックス生成
- 生成したインデックスを用いた風評パターンの検知
- 風評記事かどうかの最終確認
このうち、日々書き込まれる膨大なブログ記事をインデックス生成する2つめのステップでは、以下の2点の処理が必要となり、前処理に多くの時間を要します。
- 記事に含まれるすべての単語(または短い文字列)を切り出す
- 切り出した単語を並び替えて集計する
風評パターン量に検知時間が依存
第二の問題は、風評パターンが大量で、かつ多様であるため、マッチングに時間がかかる点です。風評記事の検知には「風評パターン」と呼ばれるキーワードが必要です。これは、風評の有無を知りたい企業名や製品名と、風評を表現する言葉(風評語)の組み合わせで構成されます。たとえば、B社に対する苦情を含む記事を検知するには、「“B社”と“苦情”がともに出現する」という条件を1つの風評パターンとして作成します。
経営ダメージにつながる恐れのある風評記事を漏れなく検知するためには、自社の製品やサービス、さらには投稿者の書き間違いなどを考慮する必要があります。その数は、複雑なAND・OR条件などの論理式を伴い数十万件以上にのぼることがあり、膨大なパターン数によって検知時間が大きく変わってしまいます。
従来のCGM分析サービスは、日/週/月単位の集計データをもとにさまざまな角度からトレンドを深く分析して報告書形式にまとめるといった、マーケティング用途の“評判分析”には非常に適した技術です。つまり、記事の投稿から抽出までのスピードはそれほど求められていない技術のため、監視スピードが生命線となる風評対策には適していませんでした。
スキャン型検索の応用により風評監視技術の高速化に成功
富士通研究所では、時々刻々と投稿される風評記事を即座に検知することに特化した技術を開発するために、“リアルタイム性”に着目。テキストストリーム(注4)を “ベタ読み”する「スキャン型検索」の技術を風評監視に適用できないか、と考えました。
「スキャン型検索」ではインデックス生成などの前処理を一切おこないません。そのため、最新記事を取得したら即座に風評パターンにマッチしているかどうかを判別し、アラートを出すことができます。
また、10万件以上もの大量で、かつ複雑な風評パターンに対しては、独自のパターンマッチングアルゴリズム(注5)を適用しました。さらに、複雑な論理式を高速処理するための独自技術など、これまで富士通研究所が開発し、多くのお客様の実務で実績を積んできた基盤技術も取り入れました。こうしたさまざまな先進技術の開発により、収集した膨大な投稿記事のなかから、自社に関連する風評記事を漏れなく高速に検知し、風評記事の書き込みから検知までの時間を大幅に短縮することに成功しました。
風評監視技術の実証実験
富士通研究所がおこなった新しい風評監視技術の実証実験では、10万件の風評パターンに対しする記事1件あたりの検知時間は0.1ミリ秒未満でした(Intel Xeon 3.8GHz機使用時)。また、風評パターン数を1件から10万件に増やした場合の性能劣化は0.2%未満となり、検知時間が風評パターン数に依存せず一定であることも確認しました。
風評監視からネットの安心・安全へ
風評被害が深刻化している中国での実用化を目指し、本技術は、富士通(中国)信息系統有限公司(中国・上海)が提供しているCGM分析サービスへの適用が予定されています。(2008年度内を予定)また、今後は、風評のトリガーにもなり得る悪質なインフルエンサー(注6)や、評判分析の妨げにもなっているスパムブログ(注7)の発見、さらには犯行予告の検知など、ネット社会の安心・安全にかかわるさまざまな情報監視への適用も視野に入れ、周辺技術の研究開発に注力していきます。
注記
- (注1)CGMとは :
- Consumer Generated Media。消費者がWeb上に生成するメディア。
- (注2)CGM分析サービスとは :
- CGM(消費者生成メディア)における企業や製品などの評判を分析・可視化するサービスの総称。
- (注3)インデックス生成とは :
- テキストデータを検索するための索引構造を構築すること。
- (注4)テキストストリーム とは :
- 大量のテキストデータをそのまま並べたもの。
- (注5)パターンマッチングアルゴリズムとは :
- テキストデータ中に、あるパターンが現れるかどうかを判定する計算手続き。
- (注6)インフルエンサーとは :
- 多数の人に大きな影響を与えるCGMの作成者。
- (注7)スパムブログとは :
- アフィリエイトで広告収入を得ることや、特定のサイトへ誘導したりすることを目的として生成されるブログ。
[2009年2月2日 公開]
ジャーナル最新のテーマ
お客様の声をお聞かせください
富士通ジャーナルに掲載している記事やコンテンツについてのご意見・ご感想を、ぜひお寄せください。
お寄せいただいたご意見・ご感想については、富士通からの回答をお約束するものではありません。ご了承ください。
なお、富士通からのご回答を必要とするお問い合わせについては、
富士通ジャーナルに関するお問い合わせをご利用ください。