Twitterから身長のデータを取ってみる

Twitter / Search - #身長たす22をすると抱き着きやすい男性の身長がわかる

Twitterには,こんな感じの素晴らしいハッシュタグがたくさんある.

せっかく身長のデータを提供してくれているので,データを集計してみる.

データの集計・プロットには,Pythonを使った.Pythonを触るのは初めてだったが,なんとかコードを書くことができた.

集計方法と結果

データ集計用

gist8536319

データは2014/01/21早朝に取得した.

集計方法は,多少雑である*1

1つ目のスクリプトで得られたデータが2877件,明らかな外れ値(140より小さい or 220より大きい)を除いた上でのデータの件数は2744件であった.

ヒストグラムは以下の通り.

f:id:khakiaromas:20140121173733p:plain

明らかな外れ値を除いたデータの平均は,182.38cmであった.

結果に関して

ヒストグラムの右側の裾が長い.理由として,

  • 男性も投稿しているので,実は190cmのあたりにもう1つ山がある
  • 平均以下の身長の人が,サバを読んでいる

などが理由である可能性もあるが,単に色々な年齢層の人間がこのハッシュタグを使っているのが原因であろう.

そんなことはさておき,上で得られたデータをそのまま信用すれば,「#身長たす22をすると抱き着きやすい男性の身長がわかる」のハッシュタグをつけてツイートした人の平均身長は,約160cmであると言える.

厚生労働省が発表している平成22年の平均身長のデータ*2を見ると,14-50歳女性の平均身長が160cm弱であった.状況から見ても,このハッシュタグをつけて投稿しているのは「14-50歳女性」と見てよいだろう.

ちなみに,男性の場合,平均身長が160cm弱となる年齢は,13歳以下であり,この層がこのハッシュタグをつけてツイートしているとは考えにくいだろう.

結論

Pythonが意外と使いやすかった.

*1:RTの除外,全角数字の考慮を行っていない

*2:第2編 保健衛生 第1章 保健|厚生労働省の第2-6表