(cache) 電子化した本に最適！Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww

まずは下の表を見てください。

作者: Damian Conway,クイープ
出版社/メーカー: オライリー・ジャパン
発売日: 2006/08/24
メディア: 大型本
購入: 6人クリック: 51回
この商品を含むブログ (142件) を見る

版 / ページ数	B5版 / 513ページ
スキャン	白黒 600dpi /（表紙のみ）カラー 300dpi
圧縮前のサイズ	89.2MB
圧縮後のサイズ	28.1MB

これは前回のエントリー

「ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実」

で調査対象にした本（PDF）を、Adobe Acrobat 9（Pro / Standard）を使って

圧縮した結果です。*1

前回のエントリーでは、

ScanSnap でスキャンした後に Adobe Acrobat で OCR テキスト認識して、

検索がウマwww

という結論に至りましたが、

Adobe Acrobat では OCR テキスト認識の際に

あわせて PDF のファイルサイズを小さくすることができます。

これがめちゃくちゃ役に立つ、むしろ使わな損ってレベル。

特に電子化した本を iPad で見ようという方にとっては

ファイルサイズは死活問題だと思いますし。

ただ、おさえておかなければならないポイントがいくつかあるので、

それを以下で説明しちゃいましょうっていうのが今回の内容です。

1. Acrobat は PDF 圧縮時に何をやっているのか？

まず、Acrobat が PDF 圧縮時に何をやっているのかといえば、

いろいろやってます（笑）。Acrobat はかしこい子なので。

Adobe Acrobat 9 Standard * スキャンした文書内のテキストの認識

詳細は上記サイトに譲りますが、

Acrobat を使う上で知っておいたほうが良いだろうと思われるのは

「画像のダウンサンプリング」という用語。

これは画像の画素数（ピクセル数）を減らす処理のことです。

とーぜん画像は粗くなるので、やりすぎると見映えが悪くなるのですが。

Acrobat では、OCR テキスト認識の際にダウンサンプリングのレベル

（どれだけピクセル数を減らすか）を選択することができます。

2. 画像のダウンサンプリングはどのくらいのレベルが最適？

じゃあ、どのくらいのレベルのダウンサンプリングが最適なのかというと、

これも見本をみてもらったほうが早いかも。

レベル	見本（倍率200%）	ファイルサイズ
非圧縮		93.6MB
最低圧縮（600dpi）		28.1MB
低圧縮（300dpi）		16.9MB
中圧縮（150dpi）		10.1MB
高圧縮（72dpi）		5.9MB

前回のエントリーで推薦した ScanSnap S1500 の設定に基づき、

画質「スーパーファイン（カラー300dpi / 白黒600dpi）」で

スキャンして作成した PDF なので、

ダウンサンプリングのレベルを 600dpi（カラーの場合は 300dpi）より下げると

画質が粗くなるのは理論的に正しいのですが、

肉眼でもわかるくらい劣化していますね...

一方、試しに 600dpi よりも解像度の大きな画像を

600dpi でダウンサンプルしてみましたが、

画像の劣化については、肉眼ではほとんど見分けがつかないほどでした。*2

したがって、ダウンサンプリングのレベルは「最低圧縮（600dpi）」を

選択するのが良いかと。

3. 実は、画像のダウンサンプリング以外の処理のほうがスゴい

そう、お気づきのとおり、

解像度が 600dpi の PDF を 600dpi でダウンサンプルしても

実質、ダウンサンプリングにはなりません。

にもかかわらず

「最低圧縮（600dpi）」を選んでもファイルサイズが小さくなっているのは、

テキスト認識と同時にダウンサンプリング以外の圧縮処理も行われているから。

実際のところ、画像のダウンサンプリングよりも

それ以外の処理のほうが効果が大きいらしく、

画像が多い本よりも、テキストが多くを占める本のほうが圧縮率が高い

という結果になりました。

版 / ページ数 / その他	テキスト認識前	テキスト認識後（非圧縮）	テキスト認識後（600dpi圧縮）
B5版 / 513ページ / 表紙以外は全てテキスト	89.2MB	93.6MB	28.1MB
B5版 / 258ページ / 画像をふんだんに	130.9MB	133.4MB	99.3MB
A5版 / 273ページ / 1ページに1画像くらい	106.9MB	109.8MB	78.2MB
新書 / 193ページ / 全てテキスト	22.4MB	23.8MB	8.9MB