Your SlideShare is downloading. ×
Tokyo webmining 複雑ネットワークとデータマイニング
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply
We'd love to hear what you think

By taking this short survey, you'll help us make SlideShare better. It shouldn't take more than a few minutes.

Start Survey

Tokyo webmining 複雑ネットワークとデータマイニング

9,557
views

Published on

複雑ネットワークとデータマイニング。ネットワーク指標の概要をひと通り説明。

複雑ネットワークとデータマイニング。ネットワーク指標の概要をひと通り説明。

Published in: Business, Technology, Travel

0 Comments
9 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
9,557
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
1
Comments
0
Likes
10
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1.  複雑ネットワークと データマイニング徹底入門 @millionsmile #TokyoWebmining at 6th, Nov 20112011年11月6日日曜日
  • 2.  my bible for complex networks 増⽥田直紀,今野紀雄: 『複雑ネットワーク  -  基礎から 応⽤用まで』,近代科学社 (2010) ヽ(*^▽^*)ノワーイ♪  かなりハマってます☆⼺彡 増⽥田さんのサイト↓ http://www.stat.t.u-tokyo.ac.jp/~masuda/2011年11月6日日曜日
  • 3.  複雑ネットワークって?2011年11月6日日曜日
  • 4. Social Network http://www.facebook.com/notes/facebook-engineering/visualizing-friendships/4697163989192011年11月6日日曜日
  • 5. Capital Network http://www.newscientist.com/article/mg21228354.500-revealed--the-capitalist-network-that-runs-the-world.html2011年11月6日日曜日
  • 6.  複雑ネットワークの起源はグラフ理論にあり。 18c : スイスの数学者オイラーによってグラフ理論の幕開け[1] グラフ理論が数学的に体系化、実用化されるようになる。 20c : アメリカの数学者ハラリー(近代グラフ理論の父)の貢献 ネットワークの統計的性質が解明されていく。 1998年 : ワッツとストロガッツ[2] 1999年 : バラバシとアルバート[3] [1]  ケーニヒスベルクの橋の問題を解明し、グラフ化。オイラーグラフと呼ばれる。 [2]  Watts,  D.  J.,  Strogatz,  S.  H.  :   Collective  dynamics  of  small-worldʼ’ ,  Nature,  Vol.  393(1998) [3]  Barabasi,  A.  -L.,  Albert,  R.  :   Emergence  of  scaling  in  random  networks ,  Science,  Vol.  286(1999) オイラー http://en.wikipedia.org/ wiki/Leonhard_Euler2011年11月6日日曜日
  • 7. 2011年11月6日日曜日
  • 8.  = 同じ構造 (連続性が同じ)2011年11月6日日曜日
  • 9.  = 同じ構造 (連続性が同じ) ≠ 違う構造 (連続性が違う)2011年11月6日日曜日
  • 10.  = 同じ構造 (連続性が同じ) ≠ 違う構造 (連続性が違う) トポロジーでは、連続的に変形可能なものは同⼀一とみなす。距離は無視する。 ※コーヒーカップとドーナツが同じ話に同じ。(  http://ja.wikipedia.org/wiki/%E4%BD%8D%E7%9B%B8%E5%B9%BE%E4%BD%95%E5%AD%A6  )2011年11月6日日曜日
  • 11.  (昔) 空間構造のみ (現在) 空間構造 + 情報 より現実社会の背景に沿った発展を遂げていく2011年11月6日日曜日
  • 12.  9 複雑ネットワーク(ネットワークサイエンス)とは、 トポロジーとか関係性をみるサイエンス です。2011年11月6日日曜日
  • 13.  10 ネットワーク指標 局所的ネットワークを計測: 次数、次数相関、クラスター係数、モチーフなど ⼤大局的ネットワークを計測: 平均距離、中⼼心性、コミュニティー構造など 現実のネットワークをこれらのネットワーク指標を使い、 データマイニングやネットワーク分析を⾏行行う。2011年11月6日日曜日
  • 14.  11 Definition N :頂点数(ノード数) k :枝の数(リンク数)、次数と呼ぶ p(k) :次数  が全頂点に占める割合 k < k > :平均次数 N 1 k = ki N i=1 d(vi , vj ) :2頂点  と  距離 vi vj L :平均距離 2 L= d(vi , vj ) N (N − 1) 1≤i≤j≤N 2 ※無向グラフで頂点対の最⼤大数は組合せで求める: N C2 = N (N − 1) ※有向グラフで頂点対の最⼤大数は順列で求める: N P2 = N (N − 1)2011年11月6日日曜日
  • 15.  12 スモールワールド実験  -  平均距離 現実のネットワークでは、 Nが⼤大きくてもLがあまり⼤大きくない       = L ∝ log N 的である ことが⾮非常に多い。   例)logの底を10とした場合、 Nの増加の割にLは増えにくい N = 103 , L = 3 N = 104 , L = 4 N = 105 , L = 5 人間関係ネットワークでLが小さいことが実証されている  ●ミリグラムらによる「スモールワールド実験」(1960年代)   →目標人物まで手紙を届ける実験。わずか平均L=6で到達(6次の隔たり)  ●ワッツらによる「スモールワールド・プロジェクト」(2002年)   →目標人物までメールを届ける実験。目標人物と同じ国L=5, 違う国L=7  ●mixiのスモールワールド性の検証(2008) http://alpha.mixi.co.jp/blog/?p=144   →調査員から1300万のmixiユーザまでの平均距離L=6が95.7%, L=7が98.2%2011年11月6日日曜日
  • 16.  13 Itʼ’s  a  small  world!  -  クラスター係数 クラスター(三⾓角形)の多寡は、クラスター係数  で求める。 Ci vi ki (ki − 1)/2   の含む三⾓角形は最⼤大            個ある。 vi を含む三角形の数 Ci ≡ 0 ≤ Ci ≤ 1 ki (ki − 1)/2 クラスター係数の平均 N 1 C≡ N i=1 Ci 0≤C≤1 完全グラフでのみC=1、三⾓角形が⼀一つもないC=0。 現実のネットワークは「スモールワールド・ネットワーク」。   →世界中の誰とでも6次の隔たり程度でつながっていて(⼩小さいL)、     新しく出会った友⼈人との間にも共通の知り合いの1⼈人くらいは⾒見見つかりやすい(⼤大きいC) v4 v7 v5 v1 の隣接点 = 4 3 2 4 1 1 1 C2 = , C3 = , C4 = , C5 = , C6 = , C7 = v1 を含む三角形の最大数 = 6 6 3 10 1 3 3 v2 v1 v3 3 8 C1 = C= v6 6 152011年11月6日日曜日
  • 17.  14 次数相関 次数相関とは隣接する2点の次数が似る度合いを測るもの。 ●正の次数相関  -  ハブの隣にはハブがいやすい ●負の次数相関  -  ハブの隣に次数の⼩小さい頂点がいやすい 次数相関の計測⽅方法は2つある ●隣接点の平均次数に基づく⽅方法           は⾃自分の次数が  であるという条件のもとで、 P (k |k) k   隣接点の次数が  になる割合である。 k knn (k) = k P (k |k) k ●ピアソン相関関係という1変数で次数相関を測る⽅方法     を横軸、  を縦軸にとり、最⼩小⼆二乗法で k k   もっともあてはまる直線を決め、その傾きの正負で次数相関を判定2011年11月6日日曜日
  • 18.  15 似てる?似てない?  -  次数相関 負の次数関数になりやすいネットワーク ●⽣生物系(タンパク質、神経系、⾷食物網など) ●⼯工学系(インターネット、WWWなど) 正の次数関数になりやすいネットワーク ●⼈人間関係(知⼈人関係、共著ネットワーク)   ※類は友を呼ぶ傾向を「ホモフィリー」という knn (k) knn (k) k k2011年11月6日日曜日
  • 19.  16 中⼼心性 ネットワークの中⼼心性を計測する指標は4つある。 ●次数中⼼心性 ●近接中⼼心性 ●媒介中⼼心性 ●固有ベクトル中⼼心性 現実のネットワークで中⼼心性をどこに置くかは、 ネットワーク分析を⾏行行う上で⾮非常に⼤大事な問題。 問)  Facebookで友達1000⼈人いる⼈人は中⼼心性が⾼高いといえるか?2011年11月6日日曜日
  • 20.  17 次数中⼼心性と近接中⼼心性 次数中⼼心性とは、ハブが中⼼心という指標。次数が多い⼈人が中⼼心。 ex)  Facebookで1000⼈人友達いる⼈人と10⼈人友達いる⼈人とでは、       1000⼈人の⽅方が中⼼心だと考える。 近接中⼼心性とは、ネットワーク全体に情報を広めやすいポジショ ンにある頂点を中⼼心とみなす。⾃自分から他⼈人まで平均的にどれく らい近いかどうかによって定義される。 N −1 1 N = j=1;j=i d(vi , vj ) Li2011年11月6日日曜日
  • 21.  18 媒介中⼼心性 媒介中⼼心性は橋渡し役になっている頂点を中⼼心とみなす。 N is −1 (i i ) gi s t is =1;is =i it =1;it =i Nis it bi ≡ (N − 1)(N − 2)/2 p(bi ) p(k) ∝ k , 2 γ 3   の分布      について。                    のとき bi −γ p(b) ∝ b−δ (δ ≈ 2.0 または 2.2)   が⼤大きいハブはネットワークで重要な役割を果たすことが多く ki   が⼤大きい頂点も同様である。 bi   と  はずれやすいからこそ、  を計測する意義がある。 ki bi bi2011年11月6日日曜日
  • 22.  19 固有ベクトル中⼼心性 媒介中⼼心性は中⼼心的な頂点と隣接していると⾃自分の中⼼心性も⼤大き いと考える。GoogleのPageRankも同様の考え。 ※隣接⾏行行列が⾮非対称の場合は注意が必要 A(隣接行列)の最大固有値を と置くと固有ベクトルが定まる。 λN λN µ = Aµ2011年11月6日日曜日
  • 23.  20 コミュニティ構造 コミュニティはモジュール、グループ、クラスター、コンパート メントなどと呼ばれる。 ネットワークをどのようにコミュニティに分割するかが重要であ り、コミュニティ検出問題と呼ばれる。 詳細は、第9回のTokyoWebminingの発表を参照。 http://www.slideshare.net/komiyaatsushi/newman-66703002011年11月6日日曜日
  • 24.  21 モチーフ モチーフとはネットワークに含まれやすい三⾓角形のパターンのこ と。ex)  ⾷食物網のモチーフ、神経回路のモチーフ 有向ネットワークでは3頂点で13パターン、4頂点で199パター ンある。無向ネットワークの場合クラスター係数の計測に同じ。 測定⽅方法:元のネットワークにパターンiが    個あり、つなぎ Nm かえたネットワークにパターンiが      個ある。    >       rand Nm Nm Nm rand ならばパターンiはこのネットワークのモチーフである。 rand rand Nm − Nm Nm ・・・つなぎかえたパターンiの数の平均 Zm = rand rand σNm ・・・標準偏差 σNm2011年11月6日日曜日
  • 25.  22 ランダムネットワーク p(k) N = 10 k 2 1 4 3 p(0) = 0, p(1) = , p(2) = , p(3) = , p(4) = 10 10 10 10 ランダムネットワークの特徴 ・ポワソン分布になる ・ハブがない2011年11月6日日曜日
  • 26.  23 スケールフリーネットワーク 多くのネットワークはべき則(=パレートの法則、ジップの法則)になる −γ p(k) ∝ k A: 俳優の共演関係(γ=2.3)、B: WWW(γ=2.1)、C: 電力網(γ=4) 2≤γ≤3 現実のフリースケールネットワークは     程である。 いくつ以上の次数がハブという決まりはない。 γ  が小さいほどハブが出やすい。 特徴的なスケール(縮尺)がない(フリー)に由来。2011年11月6日日曜日
  • 27.  24 bibliography 増田直紀,今野紀雄:『複雑ネットワーク - 基礎から応用まで』,近代科学社(2010) 増田直紀,今野紀雄:『「複雑ネットワーク」とは何か』,ブルーバックス(2006) 北海道大学 工学研究科 応用物理学専攻の方の資料 http://www.topo.hokudai.ac.jp/education/SpecialLecture/090501.pdf 鈴木努さんのサイト http://www.tiu.ac.jp/~nakabasa/NetAnalysis/SNATsuzuki.html Watts, D. J., Strogatz, S. H. : “Collective dynamics of small-world’”, Nature, Vol. 393(1998) Barabasi, A. -L., Albert, R. : “Emergence of scaling in random networks”, Science, Vol. 286(1999)2011年11月6日日曜日