Your SlideShare is downloading. ×
ビッグデータとは
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

ビッグデータとは

183
views

Published on

Published in: Internet

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
183
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
5
Comments
0
Likes
7
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. ビッグデータの概要と今後 国際大学GLOCOM 准教授/主任研究員 中西 崇文
  • 2. スマートデータ・イノベーション スマートデータ・イノベーション 単行本(ソフトカバー) – 2015/2/13 中西 崇文 (著) 出版社: 翔泳社 (2015/2/13) ISBN-10: 4798141372 ISBN-13: 978-4798141374 「データ分析」では得られない、真のビッグデータ活用とは? 気鋭のデータ・サイエンティストが、死蔵データを生むだけの 「高い買い物」でも、些末な「統計テクニック」でもない、 真のデータ活用を語ります。
  • 3. 参加費:2,000円 http://www.glocom.ac.jp/events/784 庄司昌彦 (国際大学GLOCOM 主任研究員) 小泉雄介 (株式会社国際社会経済研究所 主任研究員) 中西崇文 (国際大学GLOCOM 主任研究員) 東富彦 (株式会社国際社会経済研究所 情報社会研究部 主幹研究員)
  • 4. デジタルハリウッド大学メディアライブラリー主催セミナー 第1弾 真実はデータに訊け!『スマートデータ・イノベーション』 出版記念セミナー http://www.dhw.ac.jp/research/lecture/#lecture-657 開催日時:2015年4月28日(火) 19:45~21:00(19:30開場) 場所:デジタルハリウッド大学大学院 駿河台キャンパス 駿河台ホール (東京都千代田区神田駿河台4-6 御茶ノ水ソラシティ アカデミア3階) 定員:150名 参加費:無料
  • 5. ビッグデータとは?
  • 6. ビッグデータって何? • Volume – データの量が大きいこと • Velocity – データの更新が頻繁であること • Variety – データの種類が様々であること 6
  • 7. ビッグデータってどれくらいの量 なのか? • 1990年代のインターネット全体のデータ 量=現在の『1秒間』にインターネット上 を行き来している量 • 1日に2.5EB(Exabyte,エグサバイト)もの データが生成されている • 調査会社IDC曰く、ICT機器に記録されて いる全世界の情報量 – 2013年→4.4ZB(ゼタバイト) – 2020年→44ZB(ゼタバイト) 7
  • 8. エグサ?ゼタ? • 1bit(ビット)=0/1(ON/OFF)を表す基本単位 • 1B(バイト) =8bit • 1KB(キロバイト) =1,000B • 1MB(メガバイト) =1,000KB • 1GB(ギガバイト) =1,000MB • 1TB(テラバイト) =1,000GB • 1PB(ペタバイト) =1,000TB • 1EB(エクサバイト) =1,000PB • 1ZB(ゼタバイト) =1,000EB • 1YB(ヨタバイト) =1,000ZB 8
  • 9. 単位が大き過ぎて分からない ICT上に1日に生成されるデータ量 2.5EB http://sizes.com/people/brain.htm =2,500PB=2,500,000TB 人間の脳の容量 約 3TB >> 9
  • 10. 社会にあふれるビッグデータ例 中川慶一郎, 小林佑輔, “データサイエンティストの基礎知識 挑戦するITエンジニアのために,” リックテレコム, 2014 Facebook Facebook内外で1日に クリックされる「いいね」件数 27億件 アップロードされる写真数 3億件 Twitter 1日の投稿数 4億件 Google 1日の検索数 10億件 Amazon ピークの日 の注文件数 3,600万件 LINE 1日に交わされる メッセージ数 70億件 楽天 1日の注文数 62万件 10
  • 11. ビッグデータが生む市場規模 • 米国の調査会社MarketsandMarkets社曰く – 世界のビッグデータ市場は2013年の148億7000ド ルから、2018年には463億4000ドルへと拡大する • IDC Japan曰く – ITベンダーはユーザ企業がビッグデータに対して関 心を持ち始めている今こそ、アナリティクスニーズ の吸い上げを積極的に図るべき データの利活用を考え、ビジネスに結びつけるチャンス 11
  • 12. ハッブルの法則 • ビッグバンを根拠とする宇宙が膨張し続けるこ とが分かった法則 – 天体が我々から遠ざかる速さとその距離が正比例す ることを表す法則 これはビジネスにも当てはまるのではないか 情報コストが下落するにつれ、企業からの距 離が遠い顧客ほど速いスピードで企業から遠 ざかっていく 情報コストの下落→顧客離れと情報の速さが速くなる 顧客への「信頼」、顧客をよく「知る」こと 12
  • 13. 何故ビッグデータが 重要になったのか? • コンテンツの作り手が変わった →人それぞれの気持ちを把握できるようになった – User Generated Media(UGM) • ユーザがコンテンツを自由に配信する – Social Media • ユーザがつながりによってコンテンツを創り流通させる • センサーの廉価化 →現実世界の状況をより詳細にサイバーに写像 できるようにになった – GPSセンサー、近接センサー、輝度センサー、加速度 センサー、ジャイロスコープ、etc. 13
  • 14. UGMからSocial Mediaへ • ユーザが情報を発信する – 情報の非対称性を回避 • ユーザレビューなどで事前に知ることができるよ うになった • スケールフリー性により情報が流れる – あなたは私よりも知っている、私はあなたよ りも知っている – 情報が流通しつづける 14
  • 15. ビッグデータの波 • インフラストラクチャの波 – ビッグデータを保持・処理する技術 • Cloud Computing, Distributed Computing, Map Reduce, Hadoop, Key Value Store, No SQL, BigTable, etc. • センサーデータ生成の波 – RFID • Suica, etc. – GPS – ケータイの進歩 • データ利活用の波 – データを積極的に使うことにより価値を創造 • データ流通の波 – データを交換するプラットフォームで価値を創造 15 大規模データ スケールメリット 様々なデータ利活用 スコープメリット コネクションメリットエクスチェンジ
  • 16. これまでの分析と ビッグデータ時代の分析との違い
  • 17. 従来のデータ分析 「ビッグデータ」 時代のデータ分析 母集団 母集団 データ分析対象 データ 分析対象 仮説に基づいて サンプリング 母集団を推定 得られたデータの表す世界が真実 (母集団=データ分析対象) データは現実の写像だ 17
  • 18. 自然科学の発展の歴史 •経験的事実、現象を対象として実証的に問題を解決するアプローチ •自然現象解明など 経験科学 (数千年前) •理論、モデル、数式を元に、問題を解決するアプローチ •シュレーディンガー方程式、ニュートンの法則、マクスウェルの方程式など 理論科学 (数百年前) •多数の実験事実から問題を解決するアプローチ •自然科学(数学・天文学など除く)、心理学など 実験科学 (数百前) •モデルを構築し、計算機を駆使して問題を解決するアプローチ •計算機シミュレーションなど 計算科学 (数十年前) •最初からデータを分析することで問題を解決するアプローチ •「第4の科学」と言われる データ 中心科学 ICT技術 数学/ 高度な 実験装置 自然現象 の観察 18
  • 19. データ中心科学とこれまでの科学 との位置づけの違い 演繹的 帰納的 人間 ICT技術 経験科学 実験科学 理論科学 計算科学 データ 中心科学 大規模 事象・ データ スーパーコンピュータ データグリッド 小規模 事象・ データ シミュレーション サイエンスグリッド e-サイエンス モデル ↓ 問題解決 データマネジメント 事実 ↓ 問題解決 モデルの 対象範囲内の データ群 データの種類 は問わない 異種のデータ群 モデルが対象とす る実験・データの みを対象 事実として、様々 な実験、様々な データを対象 19
  • 20. ビッグデータは現実の写像とみる Real world Cyber world (Web) Mapping mutually Mapping from real world to cyber world by sensing data Mapping from cyber world to real world by created knowledge Utilization and verification of knowledge in real world Analyzing data, creating and recreating knowledge in cyber world
  • 21. Datafication Data Information Knowledge Wisdom Real World Activity in real world Sensing Verification in real world Data-driven manage
  • 22. ビッグデータ分析の基本 • データは現実の写像だ→5W1Hで整理 センシング •データを取 得し続ける アナライズ •データを 5W1Hで整 理しつづけ る レポート •整理した データをビ ジュアライ ゼーション して、レ ポートする 〜しつづけるというのがポイント(Velocity) 22
  • 23. ビッグデータのビジュアライゼーション • 表示は2次元 – 多くても3軸が限界であろう • 5W1Hのどれかを2軸および3軸選び、 データを描画すること – 例) • Whereの場合は緯度軸、経度軸、(高さ軸) • Who、Howの場合は「誰」と「どれくらい消費 したか」、etc. 23
  • 24. ビジュアライゼーションの作法 百分率でかつ合計に 100%示されてた数値か X軸が離散値か? 連続値か? 絶対値である 百分率でかつ合計 が100%の場合 離散値 連続値 棒グラフ 折れ線グラフ 円グラフ 帯グラフ24
  • 25. ICTが創出できる3大価値 • スケールメリット – 規模を大きくすることで得られる価値 – →全てのデータを使って考える • スコープメリット – 多角的に進出することで得られる価値 – →データを多角的に見て考える • コネクションメリット – 繋げる、繋がることによって得られる価値 – →様々なデータをつなげて考える 25
  • 26. そもそもデータによる 価値創造とは? • 価値があるってどういうこと? • 意味のあるものに価値を見出す – 意味のないものは価値がないと言ってもいい • データから意味を見出す 26
  • 27. 価値創造とコンテクストの関係 価値あるもの 意味あるもの 意味 コンテント コンテクスト 内容 文脈 明示的に表現されたもの 背景的に表現されたもの 27
  • 28. コンテントとコンテクスト 意味 コンテント コンテクスト 説明 明示的に示されたもの →商品、サービス自体 暗示的に示されているもの →商品、サービスを利用 する背景 昔 技術の進歩、サービスの充 実が豊かさの象徴として、 商品、サービスが売れた。 消費者側にステレオタイプ 的な豊かな生活に対する憧 れがあった。 今 技術の発展が緩やかになり、 コモディティ化によって商 品、サービスで差別化がで きなくなった。 消費者は多様性が許容され、 商品、サービスを通してラ イフスタイルを伝えないと いけない。 28
  • 29. ビッグデータの今後
  • 30. ビッグデータは消費社会の脱却を 意味する • ユーザは自分の状況(コンテクスト)を積極 的に配信する時代(Social Media, UGM) • あるコンテクストで必要なコンテント (商品、サービス)があればよい – 普段は持っている必要がない – 所有による満足ではなく、経験による満足 30
  • 31. ビッグデータを取得できるものが ビッグデータ時代を制する • データを取得し続ける=現実を把握し 続ける – 顧客ニーズを追い求め続ける – 常時現実を最適な状態にしたい , etc. • どのように現実世界からサイバーに データを送り続けるインタフェースを つくるかが重要 31
  • 32. 現実世界とサイバーの インタフェースの重要性 現実世界 異種のデータ群 事業者側データセンター インタフェース インタフェース インタフェース インタフェース 例) POS, SNSへの入力など 分析/可視化 顧客のニーズを把握 32
  • 33. Apple.incの「Siri」が企む未来 • インタフェースが変わる • ググるはもう古い – キーボード、マウスのインタフェースが 使えない若者 • 新しいインタフェースを握ることが 新たな価値を見出すことができる 33
  • 34. 「ビッグデータ利活用」の 技術的コア • Dirtyなデータを対象として分析できる技術 – オンライン学習 • これまでの各人工知能技術は学習に時間がかかっていた – データの振る舞いが変わると、場合によっては全体の学習し直し が起こる→不都合 • 頻繁に入力されるデータを分析しながら学習にも利用する – 特徴選択(Feature engineering, Feature Selection ) • よい結果を出す特徴量とは一体何か • 普通に考えると組み合わせ爆発が起こり、計算不能 • 例) Deep Learning, Bag of Keypoints, ベイズ推論, etc. 34
  • 35. まとめ
  • 36. ビッグ×オープン×パブリック? 狭義 広義 ビッグデータ 3V(Volume, Velocity, Variety) いろんな意味で使われて おり、Buzz Word化して いる オープンデータ オープンソース、オープ ンガバメントと同様の オープンの意味合い。 透明性担保のために、 データをオープンにする という意味合いが大きい (クローズ、セミクロー ズ) 区別なく使用 パブリックデータ そもそもみんながアクセ スしうるデータ
  • 37. 個人データとプライバシー 参考資料
  • 38. パーソナルデータとプライバシー • パーソナルデータ – 個人に関する情報についてを置き換えて言って いる場合が多い – 日本語に訳すと個人情報だが、狭義では日本語で いう個人情報と意味合いが違うので要注意 • 個人情報 – 個人情報保護法で保護される情報(次頁) • プライバシー – 人、組織に知られたくない情報 – パーソナルデータ、個人情報に比べると主観的 38
  • 39. パーソナルデータの整理 パーソナルデータ 個人情報 (個人情報保護法で 保護) プライバシー 39
  • 40. 「個人情報」該当性判断 岡村久道(編),”クラウドコンピューティングの法律,” 民事法研究会, 2012. 個人(自然人)に関する情報か? 生存者の情報か? 当該情報に含まれる記述等により 特定の個人情報を識別することが できるか? 当該情報と他の情報とを 照合することで、特定の 個人を識別できるか? 当該情報と他の情報とは 容易に照合できるか? Yes Yes Yes No Yes No No No No 個人情報である 個人情報でない 40
  • 41. プライバシーを守る方策の3要素 匿名化 顧客に対して、個人を特定でき ないようにする機能 告知と承認 使う目的を顧客に明らかにし、 承認を得る機能 オプトイン/オプトアウト 顧客の要求で追加/削除される 機能 41
  • 42. プライバシーの主観性と多様性 • 実はこの3要素は現在では矛盾だらけ – 匿名性 • データ統合技術によって、いくら元データが匿名処理されていてもバレてしまう恐れがある (例多数) • 特定は無理でも識別は出来てしまう場合が殆ど – 非特定識別情報 – 告知と承認 • データの使い道は後から思いつくことが多い – 交通系のICカードで、利用目的が付け加わる度に告知と承認を改札でやったら、利便性の提供という 本来の目的が失われてしまう(改札で承認しなければならないので大混雑) – オプトイン/オプトアウト • オプトアウトした方がバレる – Googleストリートビューでオプトアウトした家が泥棒に狙われる – Facebookで友達から情報が上げられてしまう←全部確認できるのか?不可能だろう。 – 欧州でのGoogleに対する「忘れられる権利」に関する判決を受けてGoogleはオプトアウト機能を 提供始めたが、Googleは自社の検索のためのデータを消せるだけで、Web上の情報は消せない。 これによって逆にWeb上の元データのアクセスが増えてしまった • プライバシーの考え方は人によって違う – 多様性、主観性 • 帰り道を追跡されるのは嫌?安全のためなら追跡してほしい? • 何を買ったか知られるのは嫌?でも無くなりそうなものを知らせてほしい? 42
  • 43. サービスとプライバシーのバランス • 規制ばかりがよいわけではない • 規制されるとこれまで顧客に好評であった便利なサービスを提供できない 可能性もある – 特定できないという匿名性だけでなく、識別性も議論されているが、非識別な状態 だと、連続的な顧客の特定ができないため、ナビ、渋滞情報、レコメンデーションの 精度に影響がある • 点のGPS情報を連続値にできるのは個人を「識別」できるから。それによって「方向」が 分かる。厳密に識別できない情報にしてしまうと、現在享受されているサービスも受けられ なくなる • 様々な議論を呼んでいるが、利便性のあるサービスを提供する企業に対し ては、顧客は情報を預けるようになる – お互いを知れば知るほど、お互いにとってメリットのあることを考えられるように なるから。 • サービスとプライバシーの微妙なバランスを取ることが必要 – 顧客が提供してくれる情報に対して利便性のあるサービスを提供しているか – 有事(情報流出)に早急に適切な対応ができるか – 信頼関係が究極 43
  • 44. 「Suica」の騒ぎはなんだったのか? • JR東日本が鉄道利用客の乗降履歴データ(Suicaデータ)を個人特定不能に加 工(匿名化)し、さらに契約で個人特定行為を禁じた上で日立製作所へ提供、 批判を受け、オプトアウト対応を実施したが、批判が相次ぎ、データ販売 の中止 • 顧客の漠然とした不安 – データ提供って大丈夫? – 何に使われるの? • 顧客に還元されるサービス提供ならば、これほどの騒ぎにならなかったが、 データ提供のみが大きく出てしまった – かといって、データ活用の告知が改札で行われたら、改札で大渋滞になり、利便性の 提供から考えて本末転倒となる • プライバシーを含めたサービス設計が重要となる – これは決して横並びの対策では成功しない – それぞれの企業が持っているパーソナルデータはそれぞれの企業で異なり、顧客が どのようにその企業を思っているか、信頼しているかの度合いによって、プライバ シーに対しての考え方がかわるからである 44