べき乗則・パレート分布・ジップの法則

68 views

Published on

間違いだらけだと思います。参考程度に使ってください。

Published in: Data & Analytics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
68
On SlideShare
0
From Embeds
0
Number of Embeds
39
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

べき乗則・パレート分布・ジップの法則

  1. 1. べき乗則・パレート分布・ジップの法則 東京大学大学院教育学研究科修士1年 黒宮寛之
  2. 2. 今日の論文 Newman, MEJ, Power laws, Pareto distributions and Zipf’s law. Contemporary Physics (2005). 特に新しい知見があるわけではないが、べき乗則についてよくまとめられたレビュー論 文
  3. 3. 論文に入る前に
  4. 4. べき乗則とは 使われる分野によって3つ言い方が変わりますが、どれもなにかデータを集めてきたら、 その分布が下のような数式で表される分布になるということを意味します べき乗則 パレート分布 ジップの法則 x:変数 C:定数 α:指数
  5. 5. まぎらわしいので注意 指数分布と形がよく似ているので注意が必要:減少の仕方がべき乗分布の方が緩い 指数分布 べき乗分布
  6. 6. 今日の目標 ● べき乗分布の基礎的な性質と扱い方について ● べき乗分布が生まれる背景にはどのようなメカニズムがあるか を知りたい。それを ● 式変形の過程を逐次追っかけながら 話すので、誤解や間違いがあれば指摘していただけたらと思っています。
  7. 7. ここから本編
  8. 8. 正規分布だけじゃない 身の回りの多くの現象は正規分 布する ex. 身長、車のスピード、・・・
  9. 9. 正規分布だけじゃない 街の規模、論文の引用数、ウェブの訪問数、ほんの売上、電話がかかってくる回数、地震 の規模・・・これらはすべてべき乗分布になる
  10. 10. 両対数プロットについて 両対数プロットで直線になればべき乗分布を意味します
  11. 11. べき乗分布になるもの一覧
  12. 12. べき乗分布になるもの一覧
  13. 13. 実際のデータからべき乗分布を見つける方法 さきほど述べたように、対数目盛りでプロットしてみて直線になれば良い しかし対数目盛りの性質から、対数グラフの尻尾の方がギザギザになることがある ←xのスケールが右にいくほど広くなっていくのでサンプルが集中する  yのスケールが下に行くほど広がっていくので微小な差異が強調される
  14. 14. 解決法1 - logarithmic binning 通常のヒストグラム ビンの間隔は一定 1.0~1.1の間に4人 1.1~1.2の間に5人 1.2~1.3の間に3人 ・・・ logarithmic binning ビンの間隔を大きくしていく 1.0~1.1の間に4人 1.1~1.3の間に8人 1.3~1.7の間に9人 ・・・ 適用後
  15. 15. logarithmic binning の問題点 α>1のとき kが増えるにつれてビンの中 のサンプル数が少なくなって いく →グラフの右の方ほどノイズ の影響を受けやすい
  16. 16. 解決法2 累積分布 (こっちのほうがベター) 累積分布とは(ウェブサイトより)・・・確率変数Xがある値以下になる確率 https://bellcurve.jp/statistics/course/6708.html ヒストグラムを累積分布に書き直すことで、大きな xの値に対してもサンプル数を確保できる
  17. 17. べき乗分布の累積もまたべき乗分布になる 指数の値は変わるが、べき乗 分布の累積分布もまたべき乗 分布になる →累積分布が両対数プロット で直線になれば元の分布もべ き乗則に従う べき乗則を確かめるには、累積分布を両対数 プロットして、直線になるか確かめるのが定石
  18. 18. rank-frequency plotについて rank-frequency plotは累積分布と等価である? 累積分布におけるある点のy座標はx以上ものの頻 度の累計を表すが、xを頻度順に並び替えてしまえ ばxはx番目に頻度が高いことが保証されるので、 累積分布のある比をとったものにすぎない。
  19. 19. べき指数の推定 両対数プロットに対して最小二乗法で 直線をひけば直線の傾きからべき指 数をある程度推定できるが・・・ このような方法はあまりよくないらしい (おそらく両対数グラフの目盛りの歪 みのため)
  20. 20. 最尤推定によるべき指数の推定 尤度(likelihood)を最大化する 尤度って何   ベイズの公式で図のlikelihoodの位置にあるもの http://www.saedsayad.com/naive_bayesian.htm
  21. 21. 最尤推定に入る前に 定数Cの扱い
  22. 22. べき指数の最尤推定
  23. 23. べき指数の最尤推定 さきほど出した規格化定数Cを代入して
  24. 24. べき指数の最尤推定
  25. 25. 最尤推定によるべき指数の推定 無事べき指数αが求まっ た!!
  26. 26. 推定の確信度を知りたい ベイズなら簡単
  27. 27. 推定の確信度を知りたい
  28. 28. 推定の確信度を知りたい ベイズ更新 P(x), P(α)は定数なので P(α|x ) = P( x|α) P(α) = P(x | α)
  29. 29. 推定の確信度を知りたい 値×確率 積分区間が-∞→∞でないので、サンプル数で割る
  30. 30. 推定の確信度を知りたい
  31. 31. 推定の確信度を知りたい (右図)規格化定数に α-1の指数が入っているので、 α=1の 本ケースではあまり意味をなさなかった。 たぶん工夫すればなんとかなる模様
  32. 32. べき乗則を生み出すメカニズム
  33. 33. べき乗則を生み出すメカニズム ● 指数関数の組み合わせ ● 逆数 ● ランダムウォーク ● ユール過程 ● 相転移と臨界現象 ● 自己組織化臨界
  34. 34. 指数関数の組み合わせ 確率分布保存の法則
  35. 35. 指数関数の組み合わせ ランダムタイプライター ランダムに文字を打ち込んでスペースが入るまでを1単語と数え る スペースを打つ確率をqsとすると、アルファベットは全部で26文字 あるので特定の1文字を打つ確率は ql = (1-qs)/27
  36. 36. 指数関数の組み合わせ 特定の単語(長さy)の頻度xは
  37. 37. 指数関数の組み合わせ
  38. 38. 逆数
  39. 39. ランダムウォーク 1次元ランダムウォーク 例えばコイントスをして表が出たら右へ一歩進み、裏が出たら左へ一歩進むというような ことを考える
  40. 40. ランダムウォーク 今回はとくに、0地点から出発してまた0地点に戻ってくるのにかかる時間(first return time)の長さに焦点を当てる t秒後(2mステップ)に原点に戻る確率をf, もう1回、2回、3回・・・と原点に戻ってくる確率 をuとする
  41. 41. ランダムウォーク
  42. 42. ランダムウォーク
  43. 43. ランダムウォーク
  44. 44. ランダムウォーク
  45. 45. ランダムウォーク
  46. 46. ランダムウォーク
  47. 47. ランダムウォーク “Gambler’s ruin” ギャンブラーが破産するまでの時間のヒ ストグラムはべき乗分布になる
  48. 48. ユール過程 分類学でいう「種」と「属」を考える
  49. 49. ユール過程 k個の「種」をもつ「属」の数を 数えてみると、べき乗分布に なる。 その生成メカニズムのモデル がユール過程。
  50. 50. ユール過程 1ステップごとに一定の確率で「種」に遺伝子変異が起きて2つの「種」に分かれる
  51. 51. ユール過程 新たに生まれた「種」は一定の確率で新しい「属」を形成する 属A 属B
  52. 52. ユール過程 1ステップごとに新しい属が1つ生まれ、m個の「種」が既存の属に加わる t時点 t+1時 点 属A 属B 属C
  53. 53. ユール過程 パラメータ ● n → 属の数 ● k[i] → i番目の属に入っている種の数 ● m → 1ステップで加わる種の数 ● p[k] → k個の種をもつ属の数(確率分布) ルール ● 1ステップごとにnは必ず1増える。この新しい属には新しい1つの種が入る。 ● 新たに加わるm個の種はそれぞれの属がもっている種の数に応じて分配される(た くさん種がある属ほど新たにたくさんの種を獲得しやすい)
  54. 54. ユール過程
  55. 55. ユール過程 n+1ステップ目にk個の種を獲得している属は、nステップ目にk個の種を持っていて変化 していないものか、nステップ目にk-1個の種しかもっていなかったが、1個の種を獲得し てk個の種を持つようになったものである。
  56. 56. ユール過程
  57. 57. ユール過程
  58. 58. ユール過程
  59. 59. ユール過程 ベータ分布の右裾はべ き乗分布とほぼ等しい

×