ダウンロード版ウィキペディア
ダウンロード版ウィキペディア
ダウンロード版ウィキペディアとはウィキペディアの運営組織(wikipedia.org)によって公開されているXMLファイル化されたウィキペディアのデータです。このデータは不定期に更新され、その時点でのウィキペディアの全データが収録されます。Logophileにはオンライン版の最新のウィキペディアを参照する機能(ツールウィンドウ→Web検索)がありますが、インターネットに接続できない状態でウィキペディアを参照したい場合に有用です。
データの入手
ウィキペディアのダウンロードサイトから以下の手順で必要なデータをダウンロードしてください
- http://ja.wikipedia.org/wiki/Wikipedia:データベースダウンロード のページを開きます
- 1のページの中のウィキペディア日本語版のリンク(http://download.wikimedia.org/jawiki/)を開きます
- 2の中の希望する日時のリンクを開きます(通常はlatestを選択)
- 3でlatestを選択した場合は jawiki-latest-pages-articles.xml.bz2、それ以外を選択した場合は pages-articles.xml.bz2をダウンロードします
- ダウンロードしたファイルをダブルクリックして解凍します(解凍できない場合はお使いのシステムでbz2形式を解凍できるソフトウェアを別途探して解凍します)
注意
- 上記で解凍されるファイルサイズは4GB以上になります
- WindowsでHDをFAT32にしている場合は4GB以上のファイルは扱えません(HDのフォーマットをNTFSに変更する必要があります)
- 上記の説明は2010年7月現在のダウンロードサイトの状態に基づいています
使い方
- ハードディスク上にフォルダを作ります(場所や名称は自由)
- 1にダウンロードサイトから入手した XMLファイルを入れます
- LogophileDicManagerを起動し辞書の追加ボタンで1のフォルダを指定しインデックス作成を実行します
注意
- 2のXMLファイルの名称は xxxx-pages-articles.xmlのように必ず pages-articles.xml の文字列で終わっている必要があります(通常は解凍したままのファイル名がそうなっていますのでファイル名を変えないようにしてください)
仕様
- 動作確認は日本語版でのみ行っています。それ以外の言語の版については未確認です
- インデックス作成の所要時間は数分から十数分程度です
- オンライン版のウィキペディアではテンプレート機能やマジック変数などの機能があります。これらはデータの中に特定の記号を入れておくと表示時にそれらを特定の文字列や表などに置き換える機能ですがLogophileではこれらの機能には対応していません。そのため項目によっては空欄の括弧が表示されたり文字が欠落して文が壊れてしまい不完全なデータが表示されることがあります。また、オンライン版で表示される目次や右上に表示される諸表のほとんどはテンプレート機能で実装されていますので表示できません
- オリジナルデータ内のメタ記号についてはウィキペディアのヘルプで推奨されている形式のみに対応しており、非推奨の形式や複雑な入れ子には対応していません。またメタ記号の不整合などにより、項目によっては文字が途切れる・表示が乱れる・行頭などに半角の記号が残るなどの現象がおきることがあります
- 脚注機能には対応していません
- 画像等のメディアファイルはそれ自体が公開されていませんので対応していません。これにともない画像を文字列の間に挟んでいるような場合も表示が乱れたり、文が壊れたりすることがあります。
- 数式機能には対応していません(数式がある場合は<数式>という文字列に代替しています)
- オリジナルデータ内にHTMLタグがある場合はそのまま表示しています。これによりHTMLタグでの表や色付けなどはそのまま表示されますが、タグに不整合がある場合は表示が乱れることがあります
- ファイルサイズが巨大であるため全文検索は使えません
上記のような様々な要因により一部の項目では表示が崩壊することがあり対応を断念することも考えましたが、正しく表示できる項目も多数ありそれらの有用性は捨てがたいと考えて対応することにしました。ダウンロード版はオフライン時の臨時利用の簡易版でありオンライン版が正規版であると考えていただき、表示がおかしい項目や不完全な項目についてはオンライン時に正規版を参照するようにしてください。