Your SlideShare is downloading. ×
位置情報にまつわるデータ補間技術
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

位置情報にまつわるデータ補間技術

662
views

Published on

第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) - オープンデータ 最前線と未来 祭り -の発表資料です …

第45回 データマイニング+WEB @東京 ( #TokyoWebmining 45th ) - オープンデータ 最前線と未来 祭り -の発表資料です
http://www.eventbrite.com/e/45-web-tokyowebmining-45th--tickets-16532655618

Published in: Data & Analytics

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
662
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
5
Comments
0
Likes
7
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 第45回 データマイニング+WEB @東京 TokyoWebmining 45th 2015/4/18(土) 株式会社マイクロベース 仙石 裕明(@xianshiyuming) 位置情報にまつわるデータ補間技術 1
  • 2. 自己紹介 株式会社マイクロベース CEO 博士号(環境学) ! 専門:GIS, リモートセンシング, 統計学 趣味:GoogleEarthで世界探検 仙石裕明 @xianshiyuming 親知らずで左頬がパンパン(́-`›) 2
  • 3. 今日のお話 • 位置情報を持つデータを扱うときに面倒なこと、困 難なことについて。データ解析を始める前の加工の 話がメイン。 • オープンデータには位置情報のあるデータが多くあ り、使えるものが多い。 • 位置情報のあるデータを補間してできること。 3
  • 4. 留意事項 本スライドではオープンデータという言葉を頻繁に使いま すが、ライセンスや定義的に完全なオープンデータではな い、 準オープンデータ 的な位置づけのデータも含んでい ます。あしからず。 4
  • 5. 何がしたいのか? 5
  • 6. 何がしたいのか? Simcityのリアル版をつくりたい!! Simcityって何? って人はググってね! http://ja.wikipedia.org/wiki/シムシティ 6
  • 7. リアルとは? http://ja.wikipedia.org/wiki/シムシティ ゲームのSimcityは おもしろいけど、仮 想のデータ、仮想の ルールに基づいてつ くられている 本物(に近い)の個人属性 や交通量、購買ルールに基 づいて、シナリオをシミュ レーションすることはでき ないか? 7
  • 8. 位置情報から形作られる 確率的に作成されたペルソナ 個人スケールでは環境・ライフスタイルによって影響を受ける 購買行動や習慣を想定する際に便利8
  • 9. 網羅性 ⾼高 網羅性 低 解像度 低 解像度  ⾼高 GPS POS 交通量調査 アメダス 住民基本台帳 ネット調 査 アンケー ト調査 求⼈人DB 不動産DB記事DB パーソナルデータ パプリックデータ ソーシャルデータ 自己調査データ 引用: 仙石 裕明, オープンデータを活用したマイクロジオデータの開発, 統計と情報の専門誌「エストレーラ」, 2014.11 位置情報のあるデータの種類 9
  • 10. Copyright © 2013 microbase, LLC. 本資料の無断転⽤用・転載は固くお断りしております。 10 網羅性 ⾼高 網羅性 低 解像度 低 解像度 ⾼高 GPS POS 交通量 調査 アメダス 住民基本台帳 ネット 調査 アンケー ト調査 求⼈人DB 不動産DB記事DB ⾼高価である場合や個 ⼈人情報保護・プライ バシー等の問題によ り利⽤用が難しい 網羅率・更新度とも に⾼高く、⾼高度な解析 が可能 パーソナルデータ
  • 11. Copyright © 2013 microbase, LLC. 本資料の無断転⽤用・転載は固くお断りしております。 11 網羅性 ⾼高 網羅性 低 解像度 低 解像度 ⾼高 GPS POS 交通量 調査 アメダス 住民基本台帳 ネット 調査 アンケー ト調査 求⼈人DB 不動産DB記事DB オープンに公開され、 ⾏行動記録や⼈人間関係 図など応⽤用可能性は 広い。 ! ただし、網羅率は必 ずしも⾼高くなく、ノ イズ除去等の加⼯工の ⼿手間が⼤大きい ソーシャルデータ
  • 12. Copyright © 2013 microbase, LLC. 本資料の無断転⽤用・転載は固くお断りしております。 12 網羅性 ⾼高 網羅性 低 解像度 低 解像度 ⾼高 GPS POS 交通量 調査 アメダス 住民基本台帳 ネット 調査 アンケー ト調査 求⼈人DB 不動産DB記事DB パブリックデータ(いわゆるオープンデータ系) 政府による調査となるため、網羅率は⾼高い ! 更新頻度が遅く、個⼈人の特定ができないよ うに集計単位が粗い場合が多い
  • 13. 位置情報付き Tweetデータ パーソントリップ (交通実態)調査 GPS・基地局情報 リアルタイム リアルタイム10年に1度更新 頻度 規模 全ツイートのうち、 ジオタグがついて いるのは0.2% サービス加入者数 概要 トリップが詳細に 記載されており、 属性情報も多様。 しかし、特定の一 日のみ。 人の滞在分布や建 物単位の滞在履歴 が分かるが、トリッ プが分かるほど網 羅性は高くない。 滞留人口およびト リップを大規模に 把握可能。秘匿処 理のため、利用に 制限あり。 人口の約3.5% ※H22近畿圏 交通データの例 13
  • 14. 完璧にすべての条件が揃った データは存在しないに等しい 不完全なデータを補間し合って 完成度を高めていくしかない 14
  • 15. 位置情報を持つデータ分析上の 特有の課題 • 実空間は連続的に事物が構成されているが、取得 可能なデータは断片的な取得に限られるケースが 大半 • 位置情報の粒度(都道府県>市区町村>町丁>号)が 細かいほど、この特徴が強くなる • 個人情報となりえるデータが多いため、そもそも 利用に制限もしくは属性が限定的な場合が多い 15
  • 16. 補間したい項目 • 粒度(マクロ->ミクロ) • 属性情報(年齢性別、所得・⽀支出等) • ⾏行動情報(移動⼿手段、移動経路等) • サンプル数(時間的・空間的) 16
  • 17. データをどう取得するか? • データ保有企業と組む • 技術的に取得できるようにする • 自力で集める • オープンデータを使う 17
  • 18. データをどう取得するか? • データ保有企業と組む • 技術的に取得できるようにする • 自力で集める • オープンデータを使う 18
  • 19. オープンデータの種類 学術系 政府系 市民系 その他 Wikipedia, OpenStreetMap, etc. 国勢調査, 国土画像情報 etc.NASA, GRENE, etc. (環境データや実験結果データなど) 19
  • 20. Open Street Map 自由に利用でき、なおかつ編集機能のある世界地図を作る ための共同作業プロジェクト https://vimeo.com/53688271 20
  • 21. http://nlftp.mlit.go.jp/ksj/ 国土数値情報 国土交通省が提供している国土関連の空間データセット 21
  • 22. 国勢調査 日本の全ての居住者および世帯 を対象に実施される統計調査 調査票の情報が集計された値 がデータとして公開 http://ja.wikipedia.org/wiki/国勢調査_(⽇日本)22
  • 23. オープデータの活用課題 • 網羅性がない • データが扱いにくい • 集計単位が粗い • バラエティが少ない 市民系 政府系 23
  • 24. http://www.openstreetmap.org/#map=17/35.64665/139.71005 網羅性がない OpenStreetMap(OSM)の例 場所によって欠損がある場合。OSMの場合、恵比寿駅西南で は建物情報や店舗情報が突如乏しくなる。 24
  • 25. 平成25年 住宅⼟土地統計 第55表  データが扱いにくい 住宅土地統計の例 データが構造化されていないため、プログラミングで利用す るや大規模に扱いたい際に加工を要する 25
  • 26. 平成22年 国勢調査500mメッシュ  集計単位が粗い  国勢調査の例 プライバシー保護のために集計単位を細かく公開されておら ず、ミクロな単位で利用することができない 実際に居住している のはこの部分のみ 26
  • 27. 補間したい項目 • 粒度(マクロ->ミクロ) • サンプル数(時間的・空間的) • ⾏行動情報(移動⼿手段、移動経路等) • 属性情報(年齢性別、所得・⽀支出等) 27
  • 28. ダウンスケーリング Hessami, M., Quarda, T.B.M.J., Gachon, P., St-Hailaire, A., Selva, F. and Bobee, B., “Evaluation of statistical downscaling method over several regions of eastern Canada”, 57th Canadian water resources association annual congress, 2004. 気象分野において、将来の気候変動をモデル化した GCMs(Global Climate Models)によって作成された データを精細化 ローカルに観測された気象デー タからモデルを作成し、 GCMsに適⽤用 http://epscorspo.nevada.edu/nsf/climate1/climate10.htmlhttps://www.ral.ucar.edu/projects/conus-downscaling 28
  • 29. 擬似的に居住属性を生成 人口を対象としたダウンスケーリング 町丁目単位 500mメッシュ単位 住居と世帯の関係を示す延床面積別 一般世帯数や世帯の家族類型別世帯数 Gallego J., Downscaling population density in the European Union with a land cover map and a point survey, JRC-Ispra. ローカルスケールで取得可能 なデータ 29
  • 30. 第8表 住宅の建て方(7区分)別住宅に住む主世帯数,主世帯人員及び1世帯当たり人員 −町丁・字等 平成22年国勢調査 小地域集計 (総務省統計局) 1)住居選定および居住可能世帯数の推定 町丁目単位において、建物種別世帯数が取得可能。町丁目単位において統計表と整合するように、 住居となる建物・世帯数を特定。共同住宅の階数・部屋数は建物面積・用途地域をもとにランダム フォレストで推定後、国勢調査の世帯数に一致するように部分調整 30
  • 31. 平成22年国勢調査人口等基本集計(総務省統計局) 第29表 世帯の家族類型(16区分),住居の種類・住宅の所有の関係(3区分),延べ面 積(14区分)別一般世帯数及び一般世帯人員(3世代世帯−特掲) − 人口20万以上の市 2)居住者人数および家族類型の推定 町丁目単位において部屋面積別世帯数が取得可能。さらに市区町村単位において、部屋面積別家族 類型が取得可能。先と同様、統計表と整合するように、住居となる建物・世帯数を特定 31
  • 32. http://microgeodata.com/shop/micropupulationcensus/世帯単位のライフスタイル属性を推定 擬似的に推定された65歳以上のみで構成される世帯分布 32
  • 33. http://microgeodata.com/shop/micromeshcensus/50m単位のメッシュ統計を全国で作成 建物按分によって推計された50m単位の人口分布 33
  • 34. 補間したい項目 • 粒度(マクロ->ミクロ) • サンプル数(時間的・空間的) • ⾏行動情報(移動⼿手段、移動経路等) • 属性情報(年齢性別、所得・⽀支出等) 34
  • 35. 空間補間 点配置パターンなど空間に起こる事象を分 析するための統計的方法である。生態学 (ecology)、森林学(forestry)、天文 学、地理学(geography)等で使われる。 空間統計学 35
  • 36. 空間補間 クリギング(Kriging) 南アフリカの鉱山技術者Krigeが考案した方法。複数個のボーリングのデー タ(サンプル)から採石場全体の鉱山の総含有量を推定する。 渋谷区の路線価の空間補間 距離が近い点のデータは大 きな類似性を持つという空 間相関を,変数間の共分散 を距離の関数として表現 井上亮, (2008)共クリギングによる土 地取引価格の時空間内挿に関する研究 内挿に関する研究 36
  • 37. 空間的自己相関 モランI統計量 Moran's I ( -1.0 < I < 1.0) 空間的な連続性を定義するために空間的位置関係の 隣接性から地区間の連結性行列w(空間重み付け行 列)を作成し、隣接地区間で属性の共変動関係を定 義 Xは属性値 Anselin (1988), LeSage and Pace (2009) 37
  • 38. 空間的自己相関 install.packages("spdep") library(spdep) ! data(oldcol) crime <- COL.OLD$CRIME plot(COL.nb, coords = cbind(COL.OLD$X, COL.OLD$Y)) ! col.W <- nb2listw(COL.nb, style = "W") str(moran(crime, col.W, length(COL.nb), Szero(col.W))) moran(crime, col.W, length(COL.nb), Szero(col.W)) ! moran.test(crime, nb2listw(COL.nb, style = "W")) Rの例(オハイオ州) http://web.sfc.keio.ac.jp/~maunz/wiki/index.php?asakura_sp_chap05 より詳しくは、慶應義塾⼤大学古⾕谷准教授のページが参考になります 38
  • 39. 路線価に適用してみる 東京都主税局から公開されてい る路線価マップ(PDF)から画像 認識により路線価データを⽣生成 => 残りの地点は空間回帰モデルで推定!! しかし、認識ミスや取得した地 点情報が位置の誤差により道路 データに落とせない場合がある 連結性行列W(空間重み付け行列) 39
  • 40. gdal_grid -zfield variable -of GTiff input_path output_path (おまけ)単純なヒートマップをつくりたいだけなら GDAL(Geospatial Data Abstraction Library)を⼊入れると らっくらく〜~!! GDALはラスターデータのメタデータの検索(gdalinfo) や、データフォーマットの変換(gdal_gransform, gdalwarp)などが可能なPythonライブラリ 40
  • 41. 東京都主税局より http://www.tax.metro.tokyo.jp/map/H27/shibuya/041.pdf 渋谷駅北部 41
  • 42. 実際に画像からベクター化できた地点 ※道路データにはOSMを使っています 42
  • 43. 空間回帰モデルにより推定 43
  • 44. スマートニュース周辺 (ちょうどここで切れている) 44
  • 45. スマートニュース周辺 45
  • 46. background: Statmen Toner / OSM 46
  • 47. 今後、路線価情報を用いて 収入・支出を推定する予定です 47
  • 48. 補間したい項目 • 粒度(マクロ->ミクロ) • サンプル数(時間的・空間的) • ⾏行動情報(移動⼿手段、移動経路等) • 属性情報(年齢性別、所得・⽀支出等) 48
  • 49. 最短経路探索 ダイクストラ法 (Dijkstra's Algorithm) 擬似的に推定した自宅と勤務地を出発地 点(OD)とし、道路ネットワークデー タ(OSM)にダイクストラ法を適用 し、経路を推定 その際に移動手段に応じた移動速度およ び出発時間を設け、滞在推定 49
  • 50. 浦安市における⼀一⽇日の⼈人の流れ 協⼒力: 東京⼤大学柴崎研究室 データソース: パーソントリップ調査 50
  • 51. • 移動データ(GPSログ等)に特化した可視化・解析ツール • 東京大学地球観測データ統融合連携研究機構・特任研究員の 上山智士氏によって開発 1500,1,1,1998/10/01 06:00:00,139.9249985549,35.7318406842,2,7,4110309,14,97,33,,97 3700,1,1,1998/10/01 06:00:00,139.9123053021,35.753511987,1,10,4112107,10,97,33,,97 7300,1,1,1998/10/01 06:00:00,139.9132597066,35.7134959947,1,7,4114009,8 ,97,40,,97 5500,1,1,1998/10/01 06:00:00,139.9374260851,35.7387718937,2,12,4113004,14,97,32,,97 9500,1,1,1998/10/01 06:00:00,139.9268670539,35.6868715236,1,2,4115011,12,97,26,,97 9700,1,1,1998/10/01 06:00:00,139.9238668934,35.6892555155,2,6,4115016,14,97,32,,97 11400,1,1,1998/10/01 06:00:00,139.9293917865,35.6808909812,1,6,4115107,9 ,97,36,,97 11800,1,1,1998/10/01 06:00:00,139.9077829215,35.6792209637,2,6,4115202,14,97,21,,97 10100,1,1,1998/10/01 06:00:00,139.9298447577,35.684551261,1,1,4115014,12,97,26,,97 What s Mobmap? 51
  • 52. • Google Chromeアプリとしてインストール可能 • Google Mapsの上に重ねられる移動物レンダラを実装 • ベースマップの準備不要、Windows・Mac・Linux対応 What s Mobmap? 52
  • 53. •データを読み込んで生成したレイヤーは左ペインのレイヤー リストに追加 •移動可能なものは順序を入れ替え可能 追加したレイヤ Mobmapでできること 53
  • 54. 動画DEMO Mobmapでできること http://youtu.be/PAkLQwPXoKQ54
  • 55. Mobmapでできること 羽田空港を通過した移動軌跡だけを選択 55
  • 56. ハンズオン 前日のハンズオンで参加者に作成してもらった動画を紹介 http://youtu.be/VOYT2GrcBTw 56
  • 57. 疑似人流データ ! 首都圏版につづき、 関西・中京版が新 たに追加 ! 株式会社ナイトレ イのホームページ にて公開 57
  • 58. 補間したい項目 • 粒度(マクロ->ミクロ) • サンプル数(時間的・空間的) • ⾏行動情報(移動⼿手段、移動経路等) • 属性情報(年齢性別、所得・⽀支出等) 58
  • 59. 建物築年代推定データ (⼋八⺩王⼦子市全域) 博⼠士研究より 59
  • 60. 60
  • 61. 築年代をソースとした居住者属性の生成 ・耐震基準 (1981年以降かどうか) ・家賃 ・建替までの期間 航空写真 築年代情報 ・収入 ・年齢 ・ローンの返済有無 ・空き家確率 ・リフォーム需要 ・再開発対象可能地区の選定 ・周辺住居の家賃マップ ・CRM ・不動産マーケティング 61
  • 62. 65歳以上人口の居住分布推定 ソースデータ: 国勢調査小地域集計         第3表 男女別年齢人口(5歳階級)、第13表 居住期間(6区分),男女別人口 65歳以上人口と20年以上居住している人口(ともに町丁目単位)に強い相関があることが確認された。 建物築年代が分かることで、65歳以上人口の居住分布推定を試みる。 62
  • 63. まとめ • 位置情報のあるデータは、不完全なケースが多い • 完成度の高いデータを使えるようにするために 補間 があると便利 • ミクロなデータがあれば、他のマクロなデータ もミクロにできる 63
  • 64. https://www.ted.com/talks/will_marshall_teeny_tiny_satellites_that_photograph_the_entire_planet_every_day?language=ja 64
  • 65. http://www.gizmodo.jp/2014/06/50cm31cm.html 65
  • 66. ご清聴ありがとうございました! まだ研究途上のものも多くありますので、 フィードバックを沢山いただけますと幸いです^^ 66