2008-07-18

はてなダイアリーキーワードの半数はWikipediaにない

最近、はてなダイアリーキーワードにWikipediaへのリンクがついたのを見て、両者がどれくらい重複しているのか気になって調べてみた。

ダウンロードしてくる

加工

Wikipediaの方は展開すると1行1キーワードなのでそのまま。はてなの方は「読み スペース キーワード …」な形式なのでキーワードだけ残す。それと、WikipediaはUTF-8ではてなはEUCだったので文字コード変換したんだけど、変な文字が入ってるらしく、iconvを使うとこけた。PerlのEncode.pmだと大丈夫だった。ありがとうダンコーガイ!

比較結果

エントリ数
Wikipedia806134
はてなダイアリーキーワード215030
Wikipedia ∩ はてなダイアリーキーワード113584←共通部分
Wikipedia - はてなダイアリーキーワード692550←Wikipedia独自の分
はてなダイアリーキーワード - Wikipedia101446←はてな独自の分

ちなみに、上記Wikipediaのデータには、ちゃんと、リダイレクトだけのエントリも含まれてるっぽい。

まとめ

ダイアリーキーワードを書いてる皆さんごくろうさまです。

ダイアリーキーワードの半分は無駄だったかもしれないよ。

でも残り半分は無駄じゃないよ。

トラックバック - http://anond.hatelabo.jp/20080718143701

記事への反応(ブックマークコメント)