« ガジェット・メモ | トップページ | Cygwin のインストール »

2008年1月14日

Wikipedia 日本語版を Zaurus に内蔵した

 Zaurus のローカル環境で Wikipedia 日本語版が閲覧できるというので、やってみました。

Cygwin_on_virtual_pc 環境を汚すのはいやなので、Virtual PC 2007IE のテスト用として Microsoft が配布している XP の仮想イメージ (以下、IETest) を利用しました。これは先日、QuickTime を 7.3 にしてしまうと携帯動画変換君から QuickTime の機能を利用できなくなるというので、QuickTime 7.2 + 携帯動画変換君 (と、おまけに QTConverter) を使用するために構築したもの。ここへ cygwinFreePWINGwikipedia-fpw をインストールし、Wikipedia で公開されているダンプデータを変換しました。すべて無料で、正規に利用できます。変換したデータは 1 GB 超あるが、Buckingham EB Compressor で圧縮すると 700 MB 強まで縮まる (2007 年 11 月 21 日当時のダンプデータ)。1 GB 以下の SD カードでも大丈夫。Buckingham EB Compressor は Buckingham EB Player for Windows の付属ツールで、このソフトはドネーションウェアです。配布サイトは消滅していますが、Internet Archive に保存されているサイトから入手できます (2008 年 1 月 14 日現在)。
 PC の環境は Core2 Duo 3.0 GHz、4 GB のメモリで、IETest へのメモリ割り当ては 1024 MB。ホスト OS は XP Home SP2 で Virtual PC のサポート外だけど、動作しました。ただし、推奨環境外なので Microsoft に質問することはできません。変換中、CPU の使用率は 50 % 強で、ハードディスクへ頻繁にアクセスするものでなければ他の作業をしていても問題はありませんでした。変換中、ターミナルウィンドウに表示される記事タイトルがすべて文字化けして表示されたけど、生成されたデータは正常でした。
Wikipedia_japan_on_zten EPWING 互換データは、Zaurus では Zten で閲覧できます。圧縮されたデータにも対応しており、Buckingham EB Compressor の圧縮レベル 3 も閲覧できました。SL-C1000 標準 (スペシャルカーネル未使用) でも検索は高速。ヒットする項目が多い場合は速度が落ちるけど待ち時間は 10 秒未満で、「あ」の前方検索 (「あ」で始まる言葉全て) や「ん」の後方検索 (「ん」で終わる言葉全て) などでなければ、我慢できる程度でした。1 GB の SD カードはほとんどが埋まってしまいましたが、付属の辞書に加えて Wikipedia 日本語版も加わり、電子辞書として比類のないものになったと言えます。
 扱うデータが巨大であるため、パワーのあるマシン以外では挑まないほうがいいと思う。公開されているダンプデータは 600 MB 強だが、解凍すると 2.5 GB 程度になる。変換作業には、一時的に 10 GB 近い空き容量が必要なのだそうです。