野良ビッグデータへのお誘い

165 views

Published on

2017/01/21 第58回 Tokyo.R 発表資料

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
165
On SlideShare
0
From Embeds
0
Number of Embeds
11
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

野良ビッグデータへのお誘い

  1. 1. 野良ビッグデータ へのお誘い Takano Twitter: @mtknnktm 2017/01/21 第58回 Tokyo.R 1
  2. 2. ⾃⼰紹介 •  名前: takano •  Twitter: @mtknnktm •  仕事: Web系企業のデータ関連あれこれ •  興味: 計算社会科学・複雑系科学 •  もろもろ – Publications: https://sites.google.com/site/mtkn35699/ – Slide: http://www.slideshare.net/MasanoriTakano1 – Blog: http://mtkn.hatenablog.com/ 2
  3. 3. •  ふと回帰分析したくなった時 •  ふとMCMCしたくなった時 •  ふと前処理したくなった時 •  ふと機械学習したくなった時 •  ふと集計したくなった時 •  ふと社会科学したくなった時 でも iris はもう飽きた → そんなときのために、   誰でも使えるデータをご紹介 3
  4. 4. 公開データなんて調べつく されてるんじゃないの? 問題設定と⼯夫次第で 意外なデータから意外な ことが分かる(かも) 4
  5. 5. おもしろいと思ったデータの取り⽅と使い⽅ ⼥性の美醜ステレオタイプの⽂化差の研究 •  差別: 超重⼤な問題 –  どのように、どこで、性・⼈種差別が起きているか? の状況把握をしたい •  ⽅法 –  検索エンジンの検索結果を使う –  検索結果は間接的に⼈の⾏動を表す –  "beautiful woman", "ugly woman" を22ヶ国の⾔語に翻訳し、 GoogleとBingで画像検索しデータ収集 → 検索された画像の年齢・⼈種を推定(Face++を使⽤) → ⾔語(≒国・⽂化)ごとの⼥性の   ⾝体的なステレオタイプの傾向を分析 •  基本的な傾向: –  ⽩⼈・若い⼥性の⾼評価傾向が強い •  美醜ステレオタイプの⽂化差クラスタリングしたり Camila Souza Araújo, Wagner Meira Jr., Virgilio Almeida, "Iden;fying Stereotypes in the Online Percep;on of Physical AErac;veness", Proceedings of The 8th Interna3onal Conference on Social Informa3cs (SocInfo), pp. 419-437, 2016. preprint: hEps://arxiv.org/abs/1608.02499 5
  6. 6. 建前と本⾳、意識と無意識の乖離 •  ⽶出会い系サイトOkキューピットの例 –  アンケート結果 •  「差別主義者とデートするか?」→ No –  ⾏動ログ分析の結果 •  特定の⼈種に対する好み •  ⽇本における最近の乖離の例 (これは両⽅共アンケート) –  LGBTに関する意識調査 •  上司や同僚が同性愛者や両性愛者だったら「嫌だ」「どちらか といえば嫌だ」と感じる⼈が計35.0% •  職場での差別については81.0%が「なくすべきだ」 •  http://www.nikkei.com/article/DGXLASDG07H4N_X00C17A1CR8000/ 性や差別に関してはこういった不⼀致が⾒られやすい? 実態の把握には、本⾳・無意識が表れやすい⾏動ログ分析が キーになるかも ビッグデータの残酷な現実 https://www.amazon.co.jp/dp/B01JHNBK90 6
  7. 7. ⽇本の傾向 – ⼈種 7 ⽇本はアジア⼈に 偏っている 韓国・マレーシアも 似た傾向 アジア⼈はアジア⼈が 対象?(ビッグデータの残酷 な現実も同様の傾向) ⼥性の美醜ステレオタイプの⽂化差の研究
  8. 8. 検索ヒットした⼥性の画像が美醜ともに低年齢な傾向 •  単に⽇本⼈が若く判別されただけ? → 韓国よりも⽇本のほうが低いので、そうでも無さそう 仮説: ⽇本のアイドルなどの低年齢傾向を⽰す?   若年層の性的搾取も⼈類の深刻な問題の⼀つ 単にライブラリが⽇本⾵の撮り⽅を若く判別してるだけかも。年齢・⼈種の判別はFace++を利⽤。 8 ⽇本の傾向 – 年齢 ⼥性の美醜ステレオタイプの⽂化差の研究
  9. 9. ⽇本語と韓国語の年齢層⽐較 ⾒た感じはあまり変わらないような…? → 何とも⾔えない…? 要検証。 9 (キーワードは適当なので論⽂と異なるかも。韓国語はGoogle翻訳による)
  10. 10. というわけで、 公開ビッグデータ を使っていろんな ことを知ろう 10
  11. 11. 本⽇ご紹介するデータ •  BigQuery(Github) •  PornHub •  Dryad, figshare 11
  12. 12. BigQuery •  様々なビッグデータが公開されている。 –  Hacker newsの記事とコメント、オンラインゲームのロ グ、サッカーデータ、Reddit、Twitterとかも –  https://www.reddit.com/r/bigquery/wiki/datasets •  ⽣データが多いので中⾝を理解できればかなり楽しい •  BigQueryにSQLを投げればデータが取れるので とにかく⼿軽。 •  BigQueryなので⼤きなデータの前処理も楽勝 •  ちゃんとしたドキュメントはあまりないがスキーマが 分かるのでなんとなくわかる(こともある) 12
  13. 13. Githubのデータ •  BigQueryに⾏動ログが毎⽇⼊れられている –  新鮮な⽣データ! •  ⾏動ログ –  公開リポジトリについての、プルリク、マージ、コミッ ト、フォーク、Issueなどなど (各APIのレスポンス?) •  ドキュメント –  https://www.githubarchive.org/ –  https://developer.github.com/v3/activity/events/ types •  これとは別にある程度まとめたものもある –  リポジトリの利⽤⾔語とかがわかる –  https://cloud.google.com/bigquery/public-data/ github 13
  14. 14. データの詳細のさわり (詳しくはドキュメント参照) •  ⾏動のタイプ: かなりいろいろ取れる –  CommitCommentEvent, CreateEvent, DeleteEvent, ForkEvent, GollumEvent, IssueCommentEvent, IssuesEvent, LabelEvent, MemberEvent, PublicEvent, PullRequestEvent, PullRequestReviewEvent, PullRequestReviewCommentEvent, PushEvent, WatchEvent •  JSON形式でユーザやリポジトリの情報など 詳細な情報が格納されている 14
  15. 15. データの取得例 クエリ(BigQueryにこのまま書けばOK) 結果 クリスマス〜年末は プルリクが少ない 15
  16. 16. 幸せなコメントの多い プログラミング⾔語 at Stackoverflow 圧倒的 1位! Gigazine: どのプログラミング⾔語で幸せなコメントor怒りのコメントが多いのかランキング http://gigazine.net/news/20170116-programming-language-happiest-comment/ 16
  17. 17. Githubのissueコメントでも やってみた クエリ 17
  18. 18. 結果… 18
  19. 19. 結果… Rは51位…(61個中) やらなきゃよかった 19
  20. 20. ⽣データならではの味わい •  違う名前の同じデータ –  forksとforks_count –  watchersとwatchers_countとstargazersと stargazers_count •  APIの資料には "ある"。なので、あるかと 思ってたら、データには "ない" –  CommitCommentEventのrepository情報 など •  なんだかよくわからない項⽬ •  ノイズ(よくわからない使い⽅をしている ユーザの⾏動ログ) 20
  21. 21. PornHub •  海外のアダルトサイトのデータ •  クロールしたデータをMITライセンスで公開 – ML, NLP⽤に作ったらしい – http://cdipaolo.github.io/hub-db/ – ドキュメントが揃ってて使いやすい •  アダルトデータは、うまく使えば性差別・ LGBT差別・⼈種差別における現状把握・問 題発⾒にも使える(かもしれない) 21
  22. 22. PornHubのデータの⾒かた d <- fromJSON(file='porn_hub/raw_data/149_page.json') d$albums[[1]]$segment #カテゴリ d$albums[[1]]$votes #評価回数 d$albums[[1]]$upvote_percent #ポジティブ評価の⽐率 d$albums[[1]]$views #閲覧回数 d$albums[[1]]$images[[1]]$tags #タグ 他にもタイトルやコメントとかも取れる 22
  23. 23. 試しに検証: ⽇本⼈と低年齢 •  さっきの画像検索データ研究での仮説 「⽇本の性的対象の低年齢化」をこちらの データを使って雑に検証してみる – このデータでは特にそうでは無さそう? タグ 総頻度 共起頻度 共起率 french 33 8 24% german 35 7 20% latina 202 33 16% japanese 78 11 14% asian 327 46 14% white 110 13 12% black 307 34 11% brazilian 21 2 10% russian 35 3 9% indian 76 6 8% chinese 29 2 7% anime 93 2 2% 国・⼈種と "teen, teens" などの若年齢タグとの共起 23 ※ クローリングの対象は   ランダムサンプリング   ではないので参考値
  24. 24. 試しに検証: ⽇本⼈と低年齢 •  回帰分析 –  若年齢タグ(teensとか)と⼈種・国の交絡 –  若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? –  ⽬的変数はポジティブ評価回数 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 24 ※ クローリングの対象は   ランダムサンプリング   ではないので参考値
  25. 25. 試しに検証: ⽇本⼈と低年齢 25 ※ クローリングの対象は   ランダムサンプリング   ではないので参考値 異様に強い アニメ:teensタグの交絡 glm(positive_eval~offset(log(view))+tag*teens, family=poisson) のL1正則化 •  回帰分析 –  若年齢タグ(teensとか)と⼈種・国の交絡 –  若年齢タグとの交絡が強ければ、 その⼈種・国の若年齢は性の対象になっていると⾔える? –  ⽬的変数はポジティブ評価回数
  26. 26. 動物のソーシャルネット •  Dryad, figshareなどなど –  主に論⽂の実験・観測データ公開に使われる –  バイオ系の実験データ、動物のフィールドデータ からTwitterのデータまでいろいろ –  ⼤抵はその論⽂の実験が再現できるギリギリまで 削られたデータが多い(気がする) –  たまーに掘り出し物がある。 –  http://datadryad.org/ –  https://figshare.com/ •  その中から動物のソーシャルネットワークの データを分析 26
  27. 27. 動物のソーシャルネット +コミュニティ抽出 バブーン http://datadryad.org/ resource/doi:10.5061/dryad. 8gp03.2 ⿃ http://datadryad.org/ resource/doi:10.5061/dryad. 416sp ⿅ http:// moreno.ss.uci.edu/ data.html#reddeer 種によってトポロジがどう違うか? ⽐較するのも楽しいかも 27
  28. 28. 動物のソーシャルネット ネットワークの統計量⽐較   ノード数 クラスタ係数 次数相関 最短経路長 バブーン 29 0.52 -0.09 1.64 鳥 83 0.61 -0.13 1.82 鹿 671 0.56 -0.20 2.09 28 •  クラスタ係数 –  ⼤きいほど "友達の友達" が "友達" である傾向 –  最も社会性が⾼いと思われるバブーンが意外と低い •  次数相関 –  "友達の多い⼈" の友達が多いと正、そうでなければ負 –  全体的に負。⿅が最も強い傾向 •  最短経路⻑ –  ノード間の距離の平均 とりあえずやってみたがよくわからない。要調査。
  29. 29. まとめ 野良ビッグデータを使っていろいろ調べると楽しい •  BigQueryのオープンデータ –  使いやすくて最⾼ –  いろいろあってうれしい •  出会い系やアダルトサイトのデータ –  普段は表に出ない差別や性的搾取に本⾳や無意識を探るの に有⽤かも –  本発表の分析はデモ⽤のかなり適当なものなので、 本当に知るにはもっとちゃんと分析する必要がある –  センシティブなテーマなので慎重な妥当性の検討が必要 •  Dryad、figshare –  研究者が何年も掛けて集めたデータが簡単に⼿に⼊る。 たいへん貴重。 29
  30. 30. 付録: データが公開されている場所 とかリンク集とか •  SNAP –  ネットワークのデータ。ソーシャルネットワーク、P2P、 商品レビューなど。ドキュメントがそこそこある。 –  https://snap.stanford.edu/data/ •  AWS –  https://aws.amazon.com/jp/public-datasets/ •  リンク集 –  https://github.com/caesar0301/awesome-public- datasets –  http://web.stanford.edu/class/cs224w/ resources.html –  http://www.kdnuggets.com/datasets/index.html –  https://www.quora.com/Where-can-I-find-large- datasets-open-to-the-public 30

×