最近、はてなダイアリーキーワードにWikipediaへのリンクがついたのを見て、両者がどれくらい重複しているのか気になって調べてみた。
Wikipediaの方は展開すると1行1キーワードなのでそのまま。はてなの方は「読み スペース キーワード …」な形式なのでキーワードだけ残す。それと、WikipediaはUTF-8ではてなはEUCだったので文字コード変換したんだけど、変な文字が入ってるらしく、iconvを使うとこけた。PerlのEncode.pmだと大丈夫だった。ありがとうダンコーガイ!
| エントリ数 | ||
| Wikipedia | 806134 | |
| はてなダイアリーキーワード | 215030 | |
| Wikipedia ∩ はてなダイアリーキーワード | 113584 | ←共通部分 |
| Wikipedia - はてなダイアリーキーワード | 692550 | ←Wikipedia独自の分 |
| はてなダイアリーキーワード - Wikipedia | 101446 | ←はてな独自の分 |
ちなみに、上記Wikipediaのデータには、ちゃんと、リダイレクトだけのエントリも含まれてるっぽい。
ダイアリーキーワードを書いてる皆さんごくろうさまです。
ダイアリーキーワードの半分は無駄だったかもしれないよ。
でも残り半分は無駄じゃないよ。
皆が同レベルの「無知」で安堵に浸る場所として、「ウィキペディア日本語版」を推奨します。
まずは学術的な書物よりも「ウィキペディア日本語版」が求められる理由から。
最近、はてなキーワードにwikipediaの内容表示されるようになったよな・・・。 と、数日前にきがついたんだけど、、 あれ、他のキーワードはまだなのか・・・?? どういう基準なんだ...
あ、どうやら最近更新したやつにつくみたいだ。。 というわけではないよ。 http://d.hatena.ne.jp/keyword/%b2%e8%cc%cc%a5%b5%a5%a4%a5%ba 自動的につくはずだけれど、見たのがたまたまwikipediaにない...
http://anond.hatelabo.jp/20080718143701 思い出したので、またウィキペディアとはてなキーワードの数を比べてみた。 比較結果 2008-07-18でのエントリ数 2008-11-18でのエントリ数 成長率 ...
最近の新規登録で、説明文は空白で下にwikipediaのリンクが出てる「説明待ち」キーワードが目につく気がする。 wikipediaにあってはてなにないキーワードを埋めよう、としてる人がいるん...