この文書では、スキャナから読み込んだデータを Adobe Acrobat で検索や編集が可能なテキストとして認識させる方法について説明します。
「Optical Character Reader」 の略で、スキャナから印刷物の内容を取り込む時に、通常は画像として取り込まれる文字を、編集や検索対象となるテキストとして読み取ることができる機能のことです。
OCR 機能を使用しない通常の読み込みでは、文字はグラフィックとして取り込まれ、テキストの編集を行うことはできません。
Acrobat では、スキャナから取り込む際に OCR (光学式文字認識) を適用して、検索や編集が可能なテキストとして認識させることができます。取り込んだ後に OCR を適用することも可能です。
スキャナで紙の文書を取り込む際に、OCR を適用して検索可能な PDF ファイルを作成するか、画像のみの PDF ファイルを作成するかを指定できます。画像のみの PDF ファイルを作成した場合、後からテキスト認識ツールを使用して、OCR を実行することもできます。
「OCR の言語」および「PDF の出力形式」を指定して、「OK」をクリックします。
PDF の出力形式は、下記から選択します。
- 検索可能な画像 :
テキストの検索と選択を可能にします。このオプションを選択すると元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。 - 編集可能なテキストと画像(Acrobat DC) :
元のフォントに似た新しいカスタムフォントを合成し、低解像度のコピーを使用してページの背景を保持します。 - ClearScan(Acrobat XI) :
元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。
Acrobat DCAcrobat XI- 検索可能な画像 :
注意 : OCR を PDF に適用するには、元のスキャナ解像度が 72 dpi 以上に設定されている必要があります。300 dpi でスキャンすると、変換に最適なテキストが生成されます。150 dpi では OCR の精度がわずかに低くなります。
続けて、「設定」(Acrobat DC)/「編集」ボタン(Acrobat XI)をクリックして、テキスト認識 ダイアログボックスで以下の設定を行い、「OK」をクリックします。
文書の言語(Acrobat DC) / OCR の言語(Acrobat XI) :
文字を認識するために使用する OCR エンジンの言語を指定します。出力(Acrobat DC) / PDF の出力形式(Acrobat XI) :
作成する PDF の種類を指定します。どのオプションも、72 ppi 以上(推奨)の入力解像度が必要です。どの形式でも、テキスト画像に対して OCR およびフォントとページ認識が適用され、通常のテキストに変換されます。- 検索可能な画像
テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、必要に応じてゆがみが補正され、その上に非表示のテキストレイヤーが配置されます。同じダイアログボックスの「画像のダウンサンプリング」の選択項目では、画像をダウンサンプルするかどうかや、ダウンサンプリングのレベルを指定します。 - 検索可能な画像(非圧縮)
テキストの検索と選択を可能にします。このオプションを選択すると、元の画像が保持され、その上に非表示のテキストレイヤーが配置されます。元の画像を忠実に再現する必要がある場合は、このオプションを選択することをお勧めします。 - 編集可能なテキストと画像(Acrobat DC)
元のフォントに似た新しいカスタムフォントを合成し、低解像度のコピーを使用してページの背景を保持します。
- ClearScan(Acrobat XI)
元のフォントに似た新しい Type 3 フォントを合成し、低解像度のコピーを使用してページの背景を保持します。
ダウンサンプル : OCR が完了した後に、カラー、グレースケール、白黒の各画像のピクセル数を減らします。適用するダウンサンプリングのレベルを選択します。オプションの数値を高くすると、ダウンサンプリングがあまり適用されず、高い解像度の PDF が作成されます。
Acrobat DCAcrobat XI- 検索可能な画像
この文章はお役に立てましたでしょうか?さらに情報をお探しになる場合には、アドビスタッフがお届けしている解決事例やメンバー同士での活発な意見交換をチェックできるコミュニティフォーラムをご利用下さい。