日本古典籍くずし字データセットを用いたAIくずし字OCRサービスとして、「KuroNetくずし字認識サービス」を公開しました。IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できます。

KuroNetくずし字認識サービスは、「KuroNetくずし字認識ビューア」と「ダッシュボード」の2つのツールを利用します。「KuroNetくずし字認識ビューア」でくずし字OCRを行う領域を指定し、「ダッシュボード」でくずし字OCRの進行状況を管理します。

利用方法

  1. 利用登録の後、ログインします。なおログインについては、「KuroNetくずし認識ビューア」と「ダッシュボード」の両方に、同じアカウントでログインする必要があります。
  2. 「KuroNetくずし認識ビューア」に、認識したい本のIIIFマニフェストをドラッグ&ドロップしてください(注意:IIIFの利用)。そして、ページ移動やサムネイル表示などを用いて、認識したい画像を表示してください。これはIIIF Curation Viewerの一般的な操作ですので、IIIF Curation Viewerのマニュアルなどをお読みください。
  3. 右上の「■」ボタンをクリックして、くずし字認識したい領域を指定します。一般的には、見開きの半分を指定することを想定しています。小さな領域を指定すると、領域が自動的に拡大します。
  4. 領域を指定した後にクリックすると、ポップアップウィンドウが表示されます。その中の「KuroNetくずし字認識サービス」をクリックしてください。
  5. ログインしていれば、画像登録の後にダッシュボードが表示されます。ログインしていない場合は、「KuroNetくずし認識ビューア」でログインしてください。
  6. ダッシュボードの「OCR予約」リンクをクリックします。OCR予約に成功すると、OCRシステムは先着順でくずし字OCRを実行していきます。なおOCR実行に要する時間は入出力処理も含めて約3秒ですので、順番待ち件数×3〜4秒程度の待ち時間を想定してください。
  7. ダッシュボードを再読み込みすると、「OCR結果」に結果が表示されます。「OCR成功:閲覧」リンクの場合、クリックするとIIIF Curation Viewer上にくずし字認識結果が表示されます。「OCR失敗:消去」の場合、何らかの原因でKuroNetが認識できない画像ですので、リンクをクリックして結果を消去してください。
  8. IIIF Curation Viewerの左下には、文字の表示位置や大きさ、透明度などを調整する設定機能があります。またこのOCR認識結果は、誰でもアクセスできるデータですので、URLを共有すれば他者でも閲覧できます。

その他、以下のページにも説明があります。

  1. 「KuroNetくずし字認識サービス」の使い方(@yhkondo 氏のレクチャー)【IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できる!】

お試し利用

日本古典籍データセットの各ページ、および日本古典籍くずし字データセット 書名一覧のページに、KuroNetをお試しできるリンクを用意しました。

IIIFの利用

このサービスを使う際の大きなハードルは、「IIIFマニフェストをドラッグ&ドロップ」という操作にあります。この操作を簡単にするためのツールとして、Open in IIIF Viewerがあります。ブラウザ拡張機能としてこれをインストールし、オプションの「Open IIIF manifest link in (URL)」に「http://codh.rois.ac.jp/kuronet/iiif-curation-viewer/?manifest=」を設定すると、ボタン一つで開けるようになります。

また、KogumaNetくずし字認識サービスは、非IIIF画像に対する「一文字認識サービス」を提供します(準備中)。

現在のところ、非IIIF画像にKuroNetを適用するには、IIIFへの対応が必要です。第一に、自分が保有する画像やオープンデータであれば、Omekaなどのツールを用いてIIIF形式に対応した画像を作成し、それを使うことができます。第二に、図書館や博物館などの組織であれば、自館のシステムをIIIFに移行することを検討してください。世界の多くの図書館や博物館もIIIF形式による公開に移行しつつあり、長期的なトレンドとしてIIIF対応画像はますます増えていく見込みです。

将来的には、オープンソース版KuroNetも公開する予定です。ディープラーニング実行環境を自力でインストールするスキルがあれば、どんな画像にも利用できるようになります。

制限

日本古典籍くずし字データセットを学習しているため、このデータセットに存在する文字しか認識できません。旧字と新字の統合などもこのデータセットの作成方針にしたがいます。またデータセットで出現頻度が低い文字は、認識が困難となる場合もありますので、精度を向上させるにはより大規模なデータセットを構築することが重要です。

また現時点では、以下の制限があります。

  1. 白黒画像の場合、認識に失敗することがあります(対応中)。
  2. 版本に比べて写本は精度が下がります。

本サービスの利用は無料ですが、他の方々の利用をさまたげるような利用状況となった場合、利用制限などを行う可能性もあります。あらかじめご了承下さい。

参考文献

KuroNetの参考文献のページをご覧下さい。