2008-11-15

はてなキーワードの半数はWikipediaにない?(続報)

http://anond.hatelabo.jp/20080718143701

思い出したので、またウィキペディアはてなキーワードの数を比べてみた。

比較結果

2008-07-18まで2008-11-18まで成長率
Wikipedia8061348471375.08%
はてなキーワード2150302247024.50%
Wikipediaはてなキーワード1135841191104.86%←共通部分
Wikipedia - はてなキーワード6925507280275.12%Wikipedia独自の分
はてなキーワード - Wikipedia1014461056004.09%はてな独自の分

動向

ここ3ヶ月のはてなキーワードには、おもに次のような仕様変更があった。

考察

全体的に3ヶ月で5%程度の伸び。「はてなキーワード独自部分」の伸びが弱い。

はてなキーワード 4.50%に対してウィキペディア5.08%と、エントリ総数の成長率の点でははてなキーワードがやや劣る

はてなキーワードが9千程度増えたうち、はてな独自の分は4千程度と伸びが鈍いのに対して、ウィキペディアは増分4万中3万と独自エントリを順調に増やしている。これはもともとウィキペディア全体のうちはてなキーワードと共有する部分が少ないためでもあるが、独自部分の成長率をみても、ウィキペディアが1ポイント程度上回っている。

はてなダイアリーが公式に出している統計 によると、ここ3ヶ月中に急激な増加や減少はなく、むしろ、一連の仕様変更によってキーワードの作成が活発化した傾向にあることが読み取れる。

このことを合わせて考えるなら、はてなキーワードは活発化したが、同時に収録エントリの傾向がWikipediaに似てきたという現状か。

メモ

> curl http://download.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz | gzip -d > wiki.txt

> curl http://d.hatena.ne.jp/images/keyword/keywordlist_furigana_with_kid.csv |perl -MEncode -e'while(<>){print encode_utf8 decode q{euc-jp}, $_}'| cut -f2 | sort | uniq > hate.txt

成長率まで入ってくるとちょっと面倒なので、次は多分全自動で計算する

トラックバック - http://anond.hatelabo.jp/20081115232122

記事への反応(ブックマークコメント)