fuzzy Weblog@hatena このページをアンテナに追加 RSSフィード Twitter

2006-09-02

[]涼宮ハルヒシリーズ8冊をPDF化してみた

「とりあえず、やっちゃおう」(大量スキャンにおけるロングテール的なもの) (bookscannerの日記)

もし、大量スキャン計画にロングテール的なものがあるとすると、「この本はスキャンする必要あるかな、どうしようかな?とりあえず、やっちゃおう!」ってあたりにある(だろう)。

という話題があったので、まずは品質に目をつぶって文庫本をPDF化する作業を先行させてみることに。

前回までのおさらい。品質を優先した場合の処理時間。

スキャン: 2ページ/分程度。裁断済みの文庫本を、市販のフラットベッドスキャナーを使い、手動で1ページずつスキャンした場合。

OCR: 1ページ/分程度。TIFFファイルを、OCRソフトを使い、自動処理に加えて手動で校正をした場合。

テキスト整形+簡易校正: 1ページ/分程度。テキストファイルを、テキストエディターを使い、自動レイアウトのミスによる文章の順番の誤りを修正したり、不要なルビ行を削除したり、校正作業をした場合。

この後、本格的な校正作業が必要だけど、その工程を除いても1ページあたり2.5分、つまり300ページの文庫本なら12.5時間もかかってしまう。

ちなみに、プロがスキャンをする場合は1冊40分程度らしい(注: スキャン部分のみの時間)。1冊40分 (bookscannerの日記)

当初の品質優先の手順では大量スキャンは到底不可能なので、手順を見直すことにした。

まず、スキャンに関してオートフィーダーは必須とすると、市場でメジャーなスキャナーはPFU ScanSnap S500とCanon DR-2050Cの二機種に絞られる。今回は、読み込み&OCR速度が早く、直接TIFFファイルの出力も可能な(もちろんOCRつきPDFファイルの出力も可能な)後者を購入してみた。

asin:B0009A124O:detail

最初に『涼宮ハルヒの溜息』でトライアルしてみたところ、必要な機能が正しく動作し、カタログスペック通りの読み取り速度も出た。念のため出力されたPDFファイルを確認したが、OCR結果のテキストも含まれていた。

そこで、あらかじめ裁断しておいた涼宮ハルヒシリーズ全8冊を連続でスキャンしてみた。

スキャン条件: 白黒300DPI

出力条件: OCRつきPDFファイル

涼宮ハルヒの憂鬱』(310ページ): 8.84MB 涼宮ハルヒの憂鬱 (角川スニーカー文庫)

涼宮ハルヒの溜息』(280ページ): 8.78MB 涼宮ハルヒの溜息 (角川スニーカー文庫)

涼宮ハルヒの退屈』(312ページ): 9.64MB 涼宮ハルヒの退屈 (角川スニーカー文庫)

涼宮ハルヒの消失』(256ページ): 8.01MB 涼宮ハルヒの消失 (角川スニーカー文庫)

涼宮ハルヒの暴走』(330ページ): 9.98MB 涼宮ハルヒの暴走 (角川スニーカー文庫)

涼宮ハルヒの動揺』(304ページ): 10.2MB 涼宮ハルヒの動揺 (角川スニーカー文庫)

涼宮ハルヒの陰謀』(432ページ): 12.7MB 涼宮ハルヒの陰謀 (角川スニーカー文庫)

涼宮ハルヒの憤慨』(304ページ): 11.1MB 涼宮ハルヒの憤慨 (角川スニーカー文庫)

以上の作業が95分で完了した(OCR処理時間を含む)。原稿を噛んだり、複数ページをまとめて送る問題は、今回は一回も発生しなかった。

品質的には、傾きのある画像が混ざったり、黒い縁が入ったり、イラストページで傾き補正が不適切に働いたりといった問題があるものの、OCR処理をかける分にはほぼ支障ないスキャン結果が得られているものと判断できる。

現在、長門有希の100冊を読んでいるわけだが、種々の考察をする上で既読の本を参照する必要に度々迫られている。いつでも必要な本を読み直せるようにするには、PDF化して持ち歩くしかないみたい。

PS Google Book Searchの場合は、OCRアルゴリズムにも手を入れてくるような気がする。Googleは手動での校正は多分やらないだろうから、アルゴリズムの改良でOCRの精度を上げる戦略がなじみそう。OCRの改良ができない法人やグループは、とりあえずのOCR結果(テキスト)と画像の両方を公開して、そのうち良いOCR結果を出すWebサービスが出てきた時にそれを通して(画像からテキストを)読むという道を残しておけばいいだろう。

bookscannerbookscanner 2006/09/03 06:29 はじめまして、fuzzyさん。ご存知かもしれませんが、「原稿を噛んだり、複数ページをまとめて送る問題は」、裁断時に残った「のり」や「かす」が原因となることが多いです。ですから、裁断をうまくやるか、紙送りのローラー部分を定期的に清掃しておけば、ある程度避けれると思います。また、ぜひ、OCR結果の正誤表だとか、実測されたOCR精度なども教えてください。

fuzzy2fuzzy2 2006/09/04 02:09 はじめまして、bookscannerさん。
コメントありがとうございます。
著作権の都合で正誤表は出せないのですが、
OCR精度については後ほど再計測してみます。

はてなユーザーのみコメントできます。はてなへログインもしくは新規登録をおこなってください。

トラックバック - http://d.hatena.ne.jp/fuzzy2/20060902/p2
最近日記で紹介したCD/DVDや本
  • Trade-Off: Why Some Things Catch On, and Others Don't
  • Hadoop: The Definitive Guide
  • ヨスガノソラ Blu-ray版1(仮)
  • ケンコー Kenko フィルター<PRO1デジタル>プロテクター(W)49mm レンズ保護 324951
  • ソニー アクセサリーキット ACC-FWCA
1