ビッグデータとは

1. ビッグデータの概要と今後国際大学GLOCOM 准教授／主任研究員中西崇文

2. スマートデータ・イノベーションスマートデータ・イノベーション単行本（ソフトカバー） – 2015/2/13 中西崇文 (著) 出版社: 翔泳社 (2015/2/13) ISBN-10: 4798141372 ISBN-13: 978-4798141374 「データ分析」では得られない、真のビッグデータ活用とは? 気鋭のデータ・サイエンティストが、死蔵データを生むだけの「高い買い物」でも、些末な「統計テクニック」でもない、真のデータ活用を語ります。

3. 参加費：2,000円 http://www.glocom.ac.jp/events/784 庄司昌彦（国際大学GLOCOM 主任研究員）小泉雄介（株式会社国際社会経済研究所主任研究員）中西崇文（国際大学GLOCOM 主任研究員）東富彦（株式会社国際社会経済研究所情報社会研究部主幹研究員）

4. デジタルハリウッド大学メディアライブラリー主催セミナー第1弾真実はデータに訊け！『スマートデータ・イノベーション』出版記念セミナー http://www.dhw.ac.jp/research/lecture/#lecture-657 開催日時：2015年4月28日（火） 19:45～21:00（19:30開場）場所：デジタルハリウッド大学大学院駿河台キャンパス駿河台ホール（東京都千代田区神田駿河台4-6 御茶ノ水ソラシティアカデミア3階）定員：150名参加費：無料

5. ビッグデータとは？

6. ビッグデータって何？ • Volume – データの量が大きいこと • Velocity – データの更新が頻繁であること • Variety – データの種類が様々であること 6

7. ビッグデータってどれくらいの量なのか？ • 1990年代のインターネット全体のデータ量＝現在の『1秒間』にインターネット上を行き来している量 • 1日に2.5EB(Exabyte,エグサバイト)ものデータが生成されている • 調査会社IDC曰く、ICT機器に記録されている全世界の情報量 – 2013年→4.4ZB(ゼタバイト) – 2020年→44ZB(ゼタバイト) 7

8. エグサ？ゼタ？ • 1bit(ビット)=0/1(ON/OFF)を表す基本単位 • 1B(バイト) =8bit • 1KB(キロバイト) =1,000B • 1MB(メガバイト) =1,000KB • 1GB(ギガバイト) =1,000MB • 1TB(テラバイト) =1,000GB • 1PB(ペタバイト) =1,000TB • 1EB(エクサバイト) =1,000PB • 1ZB(ゼタバイト) =1,000EB • 1YB(ヨタバイト) =1,000ZB 8

9. 単位が大き過ぎて分からない ICT上に1日に生成されるデータ量 2.5EB http://sizes.com/people/brain.htm =2,500PB=2,500,000TB 人間の脳の容量約 3TB >> 9

10. 社会にあふれるビッグデータ例中川慶一郎, 小林佑輔, “データサイエンティストの基礎知識挑戦するITエンジニアのために,” リックテレコム, 2014 Facebook Facebook内外で1日にクリックされる「いいね」件数 27億件アップロードされる写真数 3億件 Twitter 1日の投稿数 4億件 Google 1日の検索数 10億件 Amazon ピークの日の注文件数 3,600万件 LINE 1日に交わされるメッセージ数 70億件楽天 1日の注文数 62万件 10

11. ビッグデータが生む市場規模 • 米国の調査会社MarketsandMarkets社曰く – 世界のビッグデータ市場は2013年の148億7000ドルから、2018年には463億4000ドルへと拡大する • IDC Japan曰く – ITベンダーはユーザ企業がビッグデータに対して関心を持ち始めている今こそ、アナリティクスニーズの吸い上げを積極的に図るべきデータの利活用を考え、ビジネスに結びつけるチャンス 11

12. ハッブルの法則 • ビッグバンを根拠とする宇宙が膨張し続けることが分かった法則 – 天体が我々から遠ざかる速さとその距離が正比例することを表す法則これはビジネスにも当てはまるのではないか情報コストが下落するにつれ、企業からの距離が遠い顧客ほど速いスピードで企業から遠ざかっていく情報コストの下落→顧客離れと情報の速さが速くなる顧客への「信頼」、顧客をよく「知る」こと 12

13. 何故ビッグデータが重要になったのか？ • コンテンツの作り手が変わった →人それぞれの気持ちを把握できるようになった – User Generated Media(UGM) • ユーザがコンテンツを自由に配信する – Social Media • ユーザがつながりによってコンテンツを創り流通させる • センサーの廉価化 →現実世界の状況をより詳細にサイバーに写像できるようにになった – GPSセンサー、近接センサー、輝度センサー、加速度センサー、ジャイロスコープ、etc. 13

14. UGMからSocial Mediaへ • ユーザが情報を発信する – 情報の非対称性を回避 • ユーザレビューなどで事前に知ることができるようになった • スケールフリー性により情報が流れる – あなたは私よりも知っている、私はあなたよりも知っている – 情報が流通しつづける 14

15. ビッグデータの波 • インフラストラクチャの波 – ビッグデータを保持・処理する技術 • Cloud Computing, Distributed Computing, Map Reduce, Hadoop, Key Value Store, No SQL, BigTable, etc. • センサーデータ生成の波 – RFID • Suica, etc. – GPS – ケータイの進歩 • データ利活用の波 – データを積極的に使うことにより価値を創造 • データ流通の波 – データを交換するプラットフォームで価値を創造 15 大規模データスケールメリット様々なデータ利活用スコープメリットコネクションメリットエクスチェンジ

16. これまでの分析とビッグデータ時代の分析との違い

17. 従来のデータ分析「ビッグデータ」時代のデータ分析母集団母集団データ分析対象データ分析対象仮説に基づいてサンプリング母集団を推定得られたデータの表す世界が真実（母集団＝データ分析対象）データは現実の写像だ 17

18. 自然科学の発展の歴史 •経験的事実、現象を対象として実証的に問題を解決するアプローチ •自然現象解明など経験科学 (数千年前) •理論、モデル、数式を元に、問題を解決するアプローチ •シュレーディンガー方程式、ニュートンの法則、マクスウェルの方程式など理論科学 (数百年前) •多数の実験事実から問題を解決するアプローチ •自然科学(数学・天文学など除く)、心理学など実験科学 (数百前) •モデルを構築し、計算機を駆使して問題を解決するアプローチ •計算機シミュレーションなど計算科学 (数十年前) •最初からデータを分析することで問題を解決するアプローチ •「第4の科学」と言われるデータ中心科学 ICT技術数学／高度な実験装置自然現象の観察 18

19. データ中心科学とこれまでの科学との位置づけの違い演繹的帰納的人間 ICT技術経験科学実験科学理論科学計算科学データ中心科学大規模事象・データスーパーコンピュータデータグリッド小規模事象・データシミュレーションサイエンスグリッド e-サイエンスモデル ↓ 問題解決データマネジメント事実 ↓ 問題解決モデルの対象範囲内のデータ群データの種類は問わない異種のデータ群モデルが対象とする実験・データのみを対象事実として、様々な実験、様々なデータを対象 19

20. ビッグデータは現実の写像とみる Real world Cyber world (Web) Mapping mutually Mapping from real world to cyber world by sensing data Mapping from cyber world to real world by created knowledge Utilization and verification of knowledge in real world Analyzing data, creating and recreating knowledge in cyber world

21. Datafication Data Information Knowledge Wisdom Real World Activity in real world Sensing Verification in real world Data-driven manage

22. ビッグデータ分析の基本 • データは現実の写像だ→5W1Hで整理センシング •データを取得し続けるアナライズ •データを 5W1Hで整理しつづけるレポート •整理したデータをビジュアライゼーションして、レポートする〜しつづけるというのがポイント(Velocity) 22

23. ビッグデータのビジュアライゼーション • 表示は2次元 – 多くても3軸が限界であろう • 5W1Hのどれかを2軸および3軸選び、データを描画すること – 例) • Whereの場合は緯度軸、経度軸、(高さ軸) • Who、Howの場合は「誰」と「どれくらい消費したか」、etc. 23

24. ビジュアライゼーションの作法百分率でかつ合計に 100%示されてた数値か X軸が離散値か？連続値か？絶対値である百分率でかつ合計が100%の場合離散値連続値棒グラフ折れ線グラフ円グラフ帯グラフ24

25. ICTが創出できる3大価値 • スケールメリット – 規模を大きくすることで得られる価値 – →全てのデータを使って考える • スコープメリット – 多角的に進出することで得られる価値 – →データを多角的に見て考える • コネクションメリット – 繋げる、繋がることによって得られる価値 – →様々なデータをつなげて考える 25

26. そもそもデータによる価値創造とは？ • 価値があるってどういうこと？ • 意味のあるものに価値を見出す – 意味のないものは価値がないと言ってもいい • データから意味を見出す 26

27. 価値創造とコンテクストの関係価値あるもの意味あるもの意味コンテントコンテクスト内容文脈明示的に表現されたもの背景的に表現されたもの 27

28. コンテントとコンテクスト意味コンテントコンテクスト説明明示的に示されたもの →商品、サービス自体暗示的に示されているもの →商品、サービスを利用する背景昔技術の進歩、サービスの充実が豊かさの象徴として、商品、サービスが売れた。消費者側にステレオタイプ的な豊かな生活に対する憧れがあった。今技術の発展が緩やかになり、コモディティ化によって商品、サービスで差別化ができなくなった。消費者は多様性が許容され、商品、サービスを通してライフスタイルを伝えないといけない。 28

29. ビッグデータの今後

30. ビッグデータは消費社会の脱却を意味する • ユーザは自分の状況(コンテクスト)を積極的に配信する時代(Social Media, UGM) • あるコンテクストで必要なコンテント (商品、サービス)があればよい – 普段は持っている必要がない – 所有による満足ではなく、経験による満足 30

31. ビッグデータを取得できるものがビッグデータ時代を制する • データを取得し続ける＝現実を把握し続ける – 顧客ニーズを追い求め続ける – 常時現実を最適な状態にしたい , etc. • どのように現実世界からサイバーにデータを送り続けるインタフェースをつくるかが重要 31

32. 現実世界とサイバーのインタフェースの重要性現実世界異種のデータ群事業者側データセンターインタフェースインタフェースインタフェースインタフェース例) POS, SNSへの入力など分析／可視化顧客のニーズを把握 32

33. Apple.incの「Siri」が企む未来 • インタフェースが変わる • ググるはもう古い – キーボード、マウスのインタフェースが使えない若者 • 新しいインタフェースを握ることが新たな価値を見出すことができる 33

34. 「ビッグデータ利活用」の技術的コア • Dirtyなデータを対象として分析できる技術 – オンライン学習 • これまでの各人工知能技術は学習に時間がかかっていた – データの振る舞いが変わると、場合によっては全体の学習し直しが起こる→不都合 • 頻繁に入力されるデータを分析しながら学習にも利用する – 特徴選択(Feature engineering, Feature Selection ) • よい結果を出す特徴量とは一体何か • 普通に考えると組み合わせ爆発が起こり、計算不能 • 例) Deep Learning, Bag of Keypoints, ベイズ推論, etc. 34

35. まとめ

36. ビッグ×オープン×パブリック？狭義広義ビッグデータ 3V(Volume, Velocity, Variety) いろんな意味で使われており、Buzz Word化しているオープンデータオープンソース、オープンガバメントと同様のオープンの意味合い。透明性担保のために、データをオープンにするという意味合いが大きい (クローズ、セミクローズ) 区別なく使用パブリックデータそもそもみんながアクセスしうるデータ

37. 個人データとプライバシー参考資料

38. パーソナルデータとプライバシー • パーソナルデータ – 個人に関する情報についてを置き換えて言っている場合が多い – 日本語に訳すと個人情報だが、狭義では日本語でいう個人情報と意味合いが違うので要注意 • 個人情報 – 個人情報保護法で保護される情報(次頁) • プライバシー – 人、組織に知られたくない情報 – パーソナルデータ、個人情報に比べると主観的 38

39. パーソナルデータの整理パーソナルデータ個人情報 (個人情報保護法で保護) プライバシー 39

40. 「個人情報」該当性判断岡村久道(編),”クラウドコンピューティングの法律,” 民事法研究会, 2012. 個人（自然人）に関する情報か？生存者の情報か？当該情報に含まれる記述等により特定の個人情報を識別することができるか？当該情報と他の情報とを照合することで、特定の個人を識別できるか？当該情報と他の情報とは容易に照合できるか？ Yes Yes Yes No Yes No No No No 個人情報である個人情報でない 40

41. プライバシーを守る方策の3要素匿名化顧客に対して、個人を特定できないようにする機能告知と承認使う目的を顧客に明らかにし、承認を得る機能オプトイン／オプトアウト顧客の要求で追加／削除される機能 41

42. プライバシーの主観性と多様性 • 実はこの3要素は現在では矛盾だらけ – 匿名性 • データ統合技術によって、いくら元データが匿名処理されていてもバレてしまう恐れがある (例多数) • 特定は無理でも識別は出来てしまう場合が殆ど – 非特定識別情報 – 告知と承認 • データの使い道は後から思いつくことが多い – 交通系のICカードで、利用目的が付け加わる度に告知と承認を改札でやったら、利便性の提供という本来の目的が失われてしまう(改札で承認しなければならないので大混雑) – オプトイン／オプトアウト • オプトアウトした方がバレる – Googleストリートビューでオプトアウトした家が泥棒に狙われる – Facebookで友達から情報が上げられてしまう←全部確認できるのか？不可能だろう。 – 欧州でのGoogleに対する「忘れられる権利」に関する判決を受けてGoogleはオプトアウト機能を提供始めたが、Googleは自社の検索のためのデータを消せるだけで、Web上の情報は消せない。これによって逆にWeb上の元データのアクセスが増えてしまった • プライバシーの考え方は人によって違う – 多様性、主観性 • 帰り道を追跡されるのは嫌？安全のためなら追跡してほしい？ • 何を買ったか知られるのは嫌？でも無くなりそうなものを知らせてほしい？ 42

43. サービスとプライバシーのバランス • 規制ばかりがよいわけではない • 規制されるとこれまで顧客に好評であった便利なサービスを提供できない可能性もある – 特定できないという匿名性だけでなく、識別性も議論されているが、非識別な状態だと、連続的な顧客の特定ができないため、ナビ、渋滞情報、レコメンデーションの精度に影響がある • 点のGPS情報を連続値にできるのは個人を「識別」できるから。それによって「方向」が分かる。厳密に識別できない情報にしてしまうと、現在享受されているサービスも受けられなくなる • 様々な議論を呼んでいるが、利便性のあるサービスを提供する企業に対しては、顧客は情報を預けるようになる – お互いを知れば知るほど、お互いにとってメリットのあることを考えられるようになるから。 • サービスとプライバシーの微妙なバランスを取ることが必要 – 顧客が提供してくれる情報に対して利便性のあるサービスを提供しているか – 有事(情報流出)に早急に適切な対応ができるか – 信頼関係が究極 43

44. 「Suica」の騒ぎはなんだったのか？ • JR東日本が鉄道利用客の乗降履歴データ(Suicaデータ)を個人特定不能に加工(匿名化)し、さらに契約で個人特定行為を禁じた上で日立製作所へ提供、批判を受け、オプトアウト対応を実施したが、批判が相次ぎ、データ販売の中止 • 顧客の漠然とした不安 – データ提供って大丈夫？ – 何に使われるの？ • 顧客に還元されるサービス提供ならば、これほどの騒ぎにならなかったが、データ提供のみが大きく出てしまった – かといって、データ活用の告知が改札で行われたら、改札で大渋滞になり、利便性の提供から考えて本末転倒となる • プライバシーを含めたサービス設計が重要となる – これは決して横並びの対策では成功しない – それぞれの企業が持っているパーソナルデータはそれぞれの企業で異なり、顧客がどのようにその企業を思っているか、信頼しているかの度合いによって、プライバシーに対しての考え方がかわるからである 44

ビッグデータとは

Takafumi Nakanishi

Transcript