2010-05-30
電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww
まずは下の表を見てください。
- 作者: Damian Conway,クイープ
- 出版社/メーカー: オライリー・ジャパン
- 発売日: 2006/08/24
- メディア: 大型本
- 購入: 6人 クリック: 51回
- この商品を含むブログ (142件) を見る
版 / ページ数 | B5版 / 513ページ |
---|---|
スキャン | 白黒 600dpi /(表紙のみ)カラー 300dpi |
圧縮前のサイズ | 89.2MB |
圧縮後のサイズ | 28.1MB |
これは前回のエントリー
「ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実 」
で調査対象にした本(PDF)を、Adobe Acrobat 9(Pro / Standard)を使って
圧縮した結果です。*1
前回のエントリーでは、
ScanSnap でスキャンした後に Adobe Acrobat で OCR テキスト認識して、
検索がウマwww
という結論に至りましたが、
Adobe Acrobat では OCR テキスト認識の際に
あわせて PDF のファイルサイズを小さくすることができます。
これがめちゃくちゃ役に立つ、むしろ使わな損ってレベル。
ファイルサイズは死活問題だと思いますし。
ただ、おさえておかなければならないポイントがいくつかあるので、
それを以下で説明しちゃいましょうっていうのが今回の内容です。
1. Acrobat は PDF 圧縮時に何をやっているのか?
まず、Acrobat が PDF 圧縮時に何をやっているのかといえば、
いろいろやってます(笑)。Acrobat はかしこい子なので。
詳細は上記サイトに譲りますが、
Acrobat を使う上で知っておいたほうが良いだろうと思われるのは
「画像のダウンサンプリング」という用語。
とーぜん画像は粗くなるので、やりすぎると見映えが悪くなるのですが。
Acrobat では、OCR テキスト認識の際にダウンサンプリングのレベル
(どれだけピクセル数を減らすか)を選択することができます。
2. 画像のダウンサンプリングはどのくらいのレベルが最適?
じゃあ、どのくらいのレベルのダウンサンプリングが最適なのかというと、
これも見本をみてもらったほうが早いかも。
レベル | 見本(倍率200%) | ファイルサイズ |
---|---|---|
非圧縮 | 93.6MB | |
最低圧縮(600dpi) | 28.1MB | |
低圧縮(300dpi) | 16.9MB | |
中圧縮(150dpi) | 10.1MB | |
高圧縮(72dpi) | 5.9MB |
前回のエントリーで推薦した ScanSnap S1500 の設定に基づき、
画質「スーパーファイン(カラー300dpi / 白黒600dpi)」で
スキャンして作成した PDF なので、
ダウンサンプリングのレベルを 600dpi(カラーの場合は 300dpi)より下げると
画質が粗くなるのは理論的に正しいのですが、
肉眼でもわかるくらい劣化していますね...
一方、試しに 600dpi よりも解像度の大きな画像を
600dpi でダウンサンプルしてみましたが、
画像の劣化については、肉眼ではほとんど見分けがつかないほどでした。*2
したがって、ダウンサンプリングのレベルは「最低圧縮(600dpi)」を
選択するのが良いかと。
3. 実は、画像のダウンサンプリング以外の処理のほうがスゴい
そう、お気づきのとおり、
解像度が 600dpi の PDF を 600dpi でダウンサンプルしても
実質、ダウンサンプリングにはなりません。
にもかかわらず
「最低圧縮(600dpi)」を選んでもファイルサイズが小さくなっているのは、
テキスト認識と同時にダウンサンプリング以外の圧縮処理も行われているから。
実際のところ、画像のダウンサンプリングよりも
それ以外の処理のほうが効果が大きいらしく、
画像が多い本よりも、テキストが多くを占める本のほうが圧縮率が高い
という結果になりました。
また、画像のダウンサンプリングは、
あまり強くやると画像の劣化が肉眼でもわかってしまったりしますが、
Acrobat の画像ダウンサンプリング「以外」の方法で行う圧縮処理では
劣化が目立たないというのも特長です。
4. 既に別のソフトウェアでテキスト認識していても問題なし
既に別のソフトウェア、例えば ScanSnap S1500 標準の「ScanSnap Manager」や
「ScanSnap Organizer」でテキスト認識している場合でも、
Acrobat でテキスト認識処理できます(テキストのレイヤーが上書きされる)。
また、PDF 圧縮だけを単独で行うこともできます。
5. 唯一の欠点は、処理に時間がかかること
けっこう裏でいろんなことやっているせいか、処理にはえらい時間がかかります。
もちろん PC のスペックにも寄りますが、最新の MacBook 15インチ(Core i5)でも、
冒頭の『Perl ベストプラクティス』だと30分、新書でも10分ほどかかりました。
ただ、複数のファイルをまとめて処理できるので、
僕は寝ているときに処理させたりしています。
6. 新技術「ClearScan」はたまに暴走する
ところで、Acrobat 9 から「ClearScan」という技術が導入されて、
これを使うと、PDF 上の文字を選択したときのガタつきが減ります。
非常によい技術なので本当に惜しいのですが、
たまに補正しすぎて逆にナナメに傾け過ぎたりしてしまいます。
なので今回は採用を見送りましたが、今後に期待です。
一番大切なことは「原本」を保存しておくこと
さて、これまでいろいろと説明してきましたが、
一番大切なことは何かと問われれば、それは
スキャンしただけの「原本」を保存しておく
ということ。
おそらくですが、OCR テキスト認識であれ、PDF の圧縮であれ、
自分なりのスタイルを確立するためにはある程度の試行錯誤が必要になります。
たとえ事前にこのエントリーに目を通していたとしても、です。
また、前回のエントリーでも触れたように、
現バージョンの Acrobat ではアルファベットの認識精度はいまいちですが、
そのうち精度も格段に上がるかもしれません。
とすると、「原本」に対して処理をやり直す、という機会が必ず訪れると思います。
たしかに原本のファイルサイズはそれなりに大きいですが、
これだけハードディスクが安くなっている今日ですから、
原本を母艦に、圧縮したファイルを iPad へ、というのが通(つう)のやり方でしょう。
おわりに
これまで Adobe Acrobat というと単に「重い」という印象だけがあって
あんまり良くは思っていなかったのですが、謝らないといけなくなりました。
なんてことはない。それは僕が使いこなせていなかっただけのこと。
前回紹介した OCR テキスト認識にしろ、今回紹介した PDF 圧縮にしろ、
まさか Acrobat がこれほどスゴいとは知らず、まさに衝撃でした。
つい先ほど、同志から
A子(先日行った飲み会で対面に座っていた女子。スレンダー)は
実は、Fカップらしい(!)
というメールが届いたのですが、それに匹敵するくらいの衝撃。
(タイトルに鼻血が付いてしまったのはそのせいです)
Fはけしからんだろ、Fは。
参考サイト
- Adobe Acrobat 9 Standard * スキャンした文書内のテキストの認識
- Adobe Acrobat 9 Standard * 保存によるファイルサイズの削減
- 紙の書類をスキャナで取り込んでPDFで管理する【2】〜ClearScan〜
関連エントリー
*1:僕は Acrobat 9 Pro のほうを使っていますが、ScanSnap S1500(Windows モデル)に付属している Acrobat 9 Standard でも同様です。ただし、Mac モデルに付属しているのは Acrobat 8 Professional で、後述の「ClearScan」は使えません。
- 157 http://b.hatena.ne.jp/hotentry
- 133 http://b.hatena.ne.jp/
- 86 http://reader.livedoor.com/reader/
- 84 http://www.google.co.jp/reader/view/
- 80 http://twitter.com/
- 63 http://www.hatena.ne.jp/
- 61 http://www.google.com/reader/view/
- 54 http://www.google.co.jp/reader/view/?hl=ja&tab=wy
- 52 http://b.hatena.ne.jp/entrylist
- 50 http://matome.naver.jp/odai/2127477379187747801
- 2010-05-31 どことなく技術屋な日々 5/69 7%
- 2010-05-30 fuzzy Weblog@hatena 5/78 6%
- 2010-05-30 かおるんダイアリー 5/85 5%