ユーザーブロマガは2021年10月7日(予定)をもちましてサービスを終了します

  • ag(The Silver Searcher)の検索速度

    2014-10-29 16:07

    近代デジタルライブラリーからダウンロードした書籍を次のような環境で使っています。

    より簡単に開く

    そんなわけで、ほぼ毎日のように下記のデータを ag で全文検索しています。

    1. biblio.txt が2069個、内容は書誌情報と書籍の目次、1ファイル大きくても2kb程度
    2. 「近代デジタルライブラリーの原資料のメタデータ」17個のxmlファイル、データの総容量は911MB

    具体的な検索速度は以下の通り、比較として ack のも掲載しておきます。

    • ag "鬼若丸" 1.31s user 0.47s system 241% cpu 0.735 total
    • ack "鬼若丸" 24.17s user 11.26s system 95% cpu 36.926 total

    (実際の使用状況に近くなるように、何度か検索してキャッシュやらを効かせています)

    現在は SSD から近デジファイルを読み出しているわけですけど、HDD ではどの程度の速度なのかなと気になり計測してみるとこいう感じでした。

    • ag "鬼若丸" 1.37s user 0.54s system 73% cpu 2.593 total

    この程度の時間がかかると一瞬ではなくなり、途端に検索するのが嫌になります。そんなわけで 2.5inch の HDD だと、この方法は実用的ではないようです。


  • 広告
  • OSX でより良い電子書籍読書環境を作る 未知の書籍も検索結果として出す

    2014-10-28 13:44

    一連の作業によって電子書籍読書環境はかなり良くなりましたが、まだまだ弱点があります。

    まず手持ちの書籍以外は検索できないという点です。これだと未知書籍に出会うことができません。


    そこで新しい書籍と出会う可能性を高めるため、ローカルファイルを検索すると同時に、近デジ全体からもチェックできるようにしました。

    方法は簡単です。

    http://www.ndl.go.jp/jp/aboutus/standards/lod_download.html

    ここからLODチャレンジ2014用データセットをダウンロードして、近デジフォルダに放り込むだけです。もうちょっと良い方法もあるんですけど面倒くさいので、まずはどの程度まで活用するのか調査するため一番単純な方法を取っています。

    データセットは1G近いファイル容量がありますが、体感的には一瞬で検索が終わります。

    emacs 上の表示はというと、単純に検索結果を表示しているだけなので、あまり読みやすくはありません。


    気が向けば下のほうも見る程度ですから、今の所は特に改善する必要はないと思っています。
  • 新聞が終わったら日本の文化レベルも下るかも

    2014-10-24 15:273

    新聞とか終わりだ終わりバカモノ!!!!!みたいな話があって、なるほどなぁとか思わないでもないんですけど、新聞がなくなった後で、文化のある分野を誰が支えていくんだろという感じの素朴な疑問もあったりします。

    新聞は今でこそニュースが書いてある紙みたいになっちゃっていますが、かっては印刷やら販売網などといった最新技術の結晶でした。なんでインターネットに乗り遅れたのか、意味が分からない感じがしますが、それはまた少々違うお話なので置いておきましょう。

    とにかく新聞は最新鋭の技術を取り入れると同時に、優秀かつ新しもの好きな人材を集め、どんどん成長していき、その余力で様々な文化を地方に普及させたりしています。わかりやすいものだと、こういうのがあります。



    読むのが面倒な人向けに要約すると、今でいう通販販売です。

    なんでこんなことを始めたのか、理由は様々ですが、もともと広告として掲載した商品を、新聞社で販売していたという点を上げることができるでしょう。

    当時の人は純朴なので、広告の商品を新聞社で売ってるのだろうと考える人がわりといた。新聞社も小遣い稼ぎのつもりで、広告の商品を売りはじめます。この小さな商売によって、通販業務を始める以前から、新聞社が物を売るノウハウをある程度は持っていたのでしょう。

    今もこういう名残はあるみたいですね。

    読売ダイレクト 毎日通販

    その他の新聞による文化的な普及活動としては、コンテストなんかが思い付きます。

    例えば1907年に、報知新聞が野菜料理や豆腐料理のコンテストを開催しています。豆腐というのは日本独自の食材であるから、豆腐料理の向上は日本料理全体の向上であるといったような考え方があって、豆腐ステーキや豆腐のフライといったものが、この時代には既に考案されていました。その豆腐料理をより一層進化させようというのが豆腐料理コンテストです。野菜料理コンテストのほうは、一汁三菜的な栄養バランスの普及のための活動だったみたいです。

    この様に勢いのある新聞社は文化を届けたり、読者を獲得したりするために、様々な試みをなしました。

    ところが今となってはそういった試みが、直接利益に繋がらない存在になっていたりします。

    分かりやすい事例として、将棋の大会があります。これは将棋大会のスポンサーになり、お金を出すかわりに、棋譜を掲載させてもらう。確かに商売として成り立った時代もあったんでしょうが、今は割に合わない感じだと思います。

    しかし今も惰性で続けています。

    新聞連載小説も同じような感じで、かっては今でいう朝ドラ以上に人気がありました。信じられないかもしれませんが、連載する小説によって新聞の発行部数が変化したくらいです。

    こちらも今となっては連載小説とかどうでもいいわみたいな感じですけど、やはり惰性で続いています。

    文化というのはこういった惰性が非常に重要で、惰性だけで成立してる分野もあったりします。

    新聞がピンチになると惰性で続けているものを、止める必要が出てきます。その時に誰がそういう文化にお金を出すのでしょうか? アマゾンが金を出すとも思えませんし、国も貧乏になりつつありますから、あまり頼ったり出来なさそうです。そうなると、今の規模で継続していくのが難しくなる文化分野が出てくるかもしれません。

    今回は新聞を取り上げましたけど、新聞に限らずこういうことは諸処で起きています。良いとも悪いとも判断しにくくて、仕方ないとしか言い様がありませんが、文化程度がわりと高い日本を維持していくためには、どうしたら良いんでしょうねなどと考えないこともなかったりする今日この頃です。