Hatena::Diary

彼女からは、おいちゃんと呼ばれています RSSフィード

2010-05-30

電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww

まずは下の表を見てください。

Perlベストプラクティス

Perlベストプラクティス

版 / ページ数B5版 / 513ページ
スキャン白黒 600dpi /(表紙のみ)カラー 300dpi
圧縮前のサイズ89.2MB
圧縮後のサイズ28.1MB

これは前回のエントリー

ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実 ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実 - 彼女からは、おいちゃんと呼ばれています

で調査対象にした本(PDF)を、Adobe Acrobat 9(Pro / Standard)を使って

圧縮した結果です。*1


前回のエントリーでは、

ScanSnap でスキャンした後に Adobe AcrobatOCR テキスト認識して、

検索がウマwww

という結論に至りましたが、

Adobe Acrobat では OCR テキスト認識の際に

あわせて PDF のファイルサイズを小さくすることができます。


これがめちゃくちゃ役に立つ、むしろ使わな損ってレベル。

特に電子化した本を iPad で見ようという方にとっては

ファイルサイズは死活問題だと思いますし。


ただ、おさえておかなければならないポイントがいくつかあるので、

それを以下で説明しちゃいましょうっていうのが今回の内容です。


f:id:inouetakuya:20100530012557p:image


1. AcrobatPDF 圧縮時に何をやっているのか?

まず、AcrobatPDF 圧縮時に何をやっているのかといえば、

いろいろやってます(笑)。Acrobat はかしこい子なので。


詳細は上記サイトに譲りますが、

Acrobat を使う上で知っておいたほうが良いだろうと思われるのは

「画像のダウンサンプリングという用語。


これは画像の画素数ピクセル数)を減らす処理のことです。

とーぜん画像は粗くなるので、やりすぎると見映えが悪くなるのですが。

Acrobat では、OCR テキスト認識の際にダウンサンプリングのレベル

(どれだけピクセル数を減らすか)を選択することができます。


f:id:inouetakuya:20100529104624p:image


2. 画像のダウンサンプリングはどのくらいのレベルが最適?

じゃあ、どのくらいのレベルのダウンサンプリングが最適なのかというと、

これも見本をみてもらったほうが早いかも。

レベル見本(倍率200%)ファイルサイズ
非圧縮f:id:inouetakuya:20100530114249p:image93.6MB
最低圧縮(600dpi)f:id:inouetakuya:20100530114250p:image28.1MB
低圧縮(300dpi)f:id:inouetakuya:20100530114500p:image16.9MB
中圧縮(150dpi)f:id:inouetakuya:20100530114501p:image10.1MB
高圧縮(72dpi)f:id:inouetakuya:20100530114502p:image5.9MB

前回のエントリーで推薦した ScanSnap S1500 の設定に基づき、

画質「スーパーファイン(カラー300dpi / 白黒600dpi)」で

スキャンして作成した PDF なので、

ダウンサンプリングのレベルを 600dpi(カラーの場合は 300dpi)より下げると

画質が粗くなるのは理論的に正しいのですが、

肉眼でもわかるくらい劣化していますね...


一方、試しに 600dpi よりも解像度の大きな画像を

600dpi でダウンサンプルしてみましたが、

画像の劣化については、肉眼ではほとんど見分けがつかないほどでした。*2

したがって、ダウンサンプリングのレベルは「最低圧縮(600dpi)」を

選択するのが良いかと。


3. 実は、画像のダウンサンプリング以外の処理のほうがスゴい

そう、お気づきのとおり、

解像度が 600dpi の PDF を 600dpi でダウンサンプルしても

実質、ダウンサンプリングにはなりません。


にもかかわらず

「最低圧縮(600dpi)」を選んでもファイルサイズが小さくなっているのは、

テキスト認識と同時にダウンサンプリング以外の圧縮処理も行われているから。


実際のところ、画像のダウンサンプリングよりも

それ以外の処理のほうが効果が大きいらしく、

画像が多い本よりも、テキストが多くを占める本のほうが圧縮率が高い

という結果になりました。

書籍版 / ページ数 / その他テキスト認識前テキスト認識後(非圧縮)テキスト認識後(600dpi圧縮)
PerlベストプラクティスB5版 / 513ページ / 表紙以外は全てテキスト89.2MB93.6MB28.1MB
Photoshop & Illustrator イラストデザイン マスターピースB5版 / 258ページ / 画像をふんだんに130.9MB133.4MB99.3MB
速効!図解 逆引き小事典 Excel VBA 2003&2002対応―Windows XP版 (速効!逆引き小事典)A5版 / 273ページ / 1ページに1画像くらい106.9MB109.8MB78.2MB
iPhoneとツイッターで会社は儲かる (マイコミ新書)新書 / 193ページ / 全てテキスト22.4MB23.8MB8.9MB

また、画像のダウンサンプリングは、

あまり強くやると画像の劣化が肉眼でもわかってしまったりしますが、

Acrobat の画像ダウンサンプリング「以外」の方法で行う圧縮処理では

劣化が目立たないというのも特長です。


4. 既に別のソフトウェアでテキスト認識していても問題なし

既に別のソフトウェア、例えば ScanSnap S1500 標準の「ScanSnap Manager」や

ScanSnap Organizer」でテキスト認識している場合でも、

Acrobat でテキスト認識処理できます(テキストのレイヤーが上書きされる)。


また、PDF 圧縮だけを単独で行うこともできます。


5. 唯一の欠点は、処理に時間がかかること

けっこう裏でいろんなことやっているせいか、処理にはえらい時間がかかります。

もちろん PC のスペックにも寄りますが、最新の MacBook 15インチ(Core i5)でも、

冒頭の『Perl ベストプラクティス』だと30分、新書でも10分ほどかかりました。


ただ、複数のファイルをまとめて処理できるので、

僕は寝ているときに処理させたりしています。


6. 新技術「ClearScan」はたまに暴走する

ところで、Acrobat 9 から「ClearScan」という技術が導入されて、

これを使うと、PDF 上の文字を選択したときのガタつきが減ります。


非常によい技術なので本当に惜しいのですが、

たまに補正しすぎて逆にナナメに傾け過ぎたりしてしまいます。


f:id:inouetakuya:20100529212515p:image:w320


なので今回は採用を見送りましたが、今後に期待です。


一番大切なことは「原本」を保存しておくこと

さて、これまでいろいろと説明してきましたが、

一番大切なことは何かと問われれば、それは

スキャンしただけの「原本」を保存しておく

ということ。


おそらくですが、OCR テキスト認識であれ、PDF の圧縮であれ、

自分なりのスタイルを確立するためにはある程度の試行錯誤が必要になります。

たとえ事前にこのエントリーに目を通していたとしても、です。


また、前回のエントリーでも触れたように、

現バージョンの Acrobat ではアルファベットの認識精度はいまいちですが、

そのうち精度も格段に上がるかもしれません。


とすると、「原本」に対して処理をやり直す、という機会が必ず訪れると思います。

たしかに原本のファイルサイズはそれなりに大きいですが、

これだけハードディスクが安くなっている今日ですから、

原本を母艦に、圧縮したファイルを iPad へ、というのが通(つう)のやり方でしょう。


おわりに

これまで Adobe Acrobat というと単に「重い」という印象だけがあって

あんまり良くは思っていなかったのですが、謝らないといけなくなりました。

なんてことはない。それは僕が使いこなせていなかっただけのこと。


前回紹介した OCR テキスト認識にしろ、今回紹介した PDF 圧縮にしろ、

まさか Acrobat がこれほどスゴいとは知らず、まさに衝撃でした。


つい先ほど、同志から

A子(先日行った飲み会で対面に座っていた女子。スレンダー)は

実は、Fカップらしい(!)

というメールが届いたのですが、それに匹敵するくらいの衝撃。

(タイトルに鼻血が付いてしまったのはそのせいです)


Fはけしからんだろ、Fは。


参考サイト


関連エントリー

*1:僕は Acrobat 9 Pro のほうを使っていますが、ScanSnap S1500(Windows モデル)に付属している Acrobat 9 Standard でも同様です。ただし、Mac モデルに付属しているのは Acrobat 8 Professional で、後述の「ClearScan」は使えません。

*2:白黒 1200dpi でスキャンして作成した PDF を 600dpi にダウンサンプルしてみました。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/inouetakuya/20100530/1275186244
おとなり日記