トップページWEB特集

WEB特集 記事一覧

  • 読み込み中

RSS

WEB特集

震災ビッグデータ報告【1】ツイッター「次に」生かすには

11月1日 20時15分

足立デスク

「震災直後、全体のわずか4%のアカウントが、全ツイートの半数をつぶやいた」
「善意の拡散が、デマ情報をさらに広げていった」

10月28日に開かれた「東日本大震災ビッグデータワークショップ」の報告会では、震災後に流れた大量の情報=ビッグデータの解析に取り組んだ研究成果が次々に発表された。
再び大災害が起きたとき、必要な情報を必要とする人に確実に届けるためには、さらに何が必要なのか。
震災ビッグデータが浮き彫りにした課題と、今後の取り組みを考える。
(ネット報道部デスク・足立義則)

埋もれた情報を救うには

グーグルとツイッター・ジャパンの呼びかけで実現したワークショップには、国内外のデータ解析の専門家やエンジニア、ジャーナリスト、学生などが参加して、9月から1か月半、それぞれ独自のテーマと手法でビッグデータに向き合った。
(解析対象となったデータの種類は、文末を参照)

ニュース画像

報告会の壇上で発表されたテーマは50。その大半が、震災後幅広く活用された「ツイッター」を巡る研究だった。
震災後の1週間で投稿された日本語のツイートは約1億7900万件にのぼり、三重大学の奥村晴彦教授によると、

■投稿したアカウント数は約369万で、そのうち4.2%のアカウントのツイートが全体の半数を占めた。
大量のツイートは、特に安否確認や交通情報を自動でつぶやく「bot」のアカウントが目立った。
■全体の2.4%のツイートが、その約9倍の21.4%のツイートによってRT(リツイート=引用)され、RTされなかったツイートは76.2%だった。

ニュース画像

こうした結果は、情報を短時間に伝達しやすいツイッターでは、データが大量になるほど情報の偏りが顕著になりがちなことを、改めて示している。実際に去年の震災直後、他のツイートをコピーして引用するいわゆる「非公式RT」や「拡散希望」が多用され、同じようなツイートばかりで画面が埋まってしまう事態が生じた。
大量で偏りがちなツイートから特定のテーマを見つけるために、ツイッターには「ハッシュタグ」という仕組みがある。
(例えば当時、宮城県の情報だけを集めるにはツイートの末尾に「#save_miyagi」のタグをつける方法が使われた)

東京工業大学大学院の村井源氏は、震災直後、県別のタグや支援要請のタグなどが多数生まれ、全体でどのようなタグがあるのか分かりにくかったことや、新規のタグを周知することが難しかったことを指摘し、自治体などによる「公式タグ」の制定や、利用者にタグやRTの適切な利用方法について周知を進めることなどを訴えた。

ニュース画像

“善意のデマ拡散”にどう対処する

報告会では、ハッシュタグなどから一歩進んで、テーマ別に特定の語句などを含むツイートを自動で抽出する研究も報告された。
こうしたシステムが実用化され、被災地の救援ツイートなどをいち早く察知できれば、的確な支援につなげることができるが、その際いわゆる「デマツイート」をどう見極めるかで議論が交わされた。

東京工業大学の高安美佐子准教授らのグループは、震災後に拡散した「千葉県内の製油所が爆発して有害物質が雨と一緒に降る」という内容のデマが、ツイッターでどのように広がったかを解析し、
■善意の心配がデマを拡散させている可能性が高い
■特定のキーワードの出現頻度を観測して「デマ注意報」などのアラートを出し、公的機関が素早い情報発信をすることが重要だ
、と述べた。

ニュース画像

さらに東北大学の乾・岡崎研究室は、震災後、仙台市内の病院で燃料の重油が不足しているというツイートが拡散した結果、問題が解決したあとも問い合わせなどが収まらなかった事例を挙げ、「ツイッターは要請の拡散を止める方法が無く、デマよりも深刻だ」と指摘。
そのうえで情報の信頼性を担保するために、特定のツイートにどのような反論が出されているかを解析し、並べて表示するシステムを提案。
東京大学 知の構造化センターのグループからは、デマをツイートしようとすると、その場で警告が表示されるシステムも提案された。

次に向けて、何が必要か

報告会ではこのほか、通信や電力の事情などで、被災地からの一次情報の発信が少なかったことや、位置情報のついたツイートがわずかだったため解析に限界があったことも指摘された。

前例のない膨大な情報に多くの専門家が取り組んだ今回のワークショップでは、新たな発見や有用な提言が多数おこなわれたが、こうした成果を研究にとどめず、今後大災害が起きたときに的確な情報のやりとりにつなげるには、
■個々の解析で得られた、膨大な災害情報を分類するノウハウやタグのリストなどを、今後の災害時に活用できるよう共有化することや、
■ワークショップを通じて実現したIT事業者と研究者、行政、メディアなどの横のつながりを、例えば「災害時の情報連携ネットワーク」などに発展させて定期的に訓練を実施すること
などが求められるのではないか。

また、今回のワークショップではツイッターの研究が目立ったが、この1年で普及が進んだほかのSNSなどのサービスとも連携をとり、情報インフラとして活用していく取り組みを官民で進めていく必要があるだろう。

ニュース画像

(参考)
「東日本大震災ビッグデータワークショップ」は9月12日に計画が発表され、10月28日に最終報告会が開かれた。
提供されたデータと、データ量は下記のとおり。

■朝日新聞:震災後1週間分の本紙掲載記事(10メガバイト)
■グーグル:震災後1週間分の検索トレンド(データ量は計測せず)
■JCC:在京テレビ6局の、震災後1週間分の放送内容の要約書き起こし(10.8メガバイト)
■ゼンリンデータコム:GPS付き携帯電話などで集計した、地域ごとの人口や混雑統計データ。3月8日から17日まで(1.8ギガバイト)
■ツイッタージャパン:震災後1週間分の全ての日本語ツイート(32ギガバイト)
■本田技研工業:カーナビを通じた震災後1週間分の車の通行情報(50メガバイト)
■レスキューナウ:震災後1週間分の鉄道の運行情報やライフライン、被害情報など(8メガバイト)
■NHK:震災後24時間に総合テレビで放送された内容の書き起こしデータ(2メガバイト)
■ウェザーニューズ:3月11日から4月29日までに一般から送られた被害やライフライン情報など(10メガバイト)
■日本気象協会:地震と津波予報、アメダス情報(1.6メガバイト)
■ビットリー社:短縮URLのデータ(3.19ギガバイト)