日本古典籍くずし字データセットを用いたAIくずし字OCRサービスとして、「KuroNetくずし字認識サービス」を公開しました。IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できます。
KuroNetくずし字認識サービスは、「KuroNetくずし字認識ビューア」と「ダッシュボード」の2つのツールを利用します。「KuroNetくずし字認識ビューア」でくずし字OCRを行う領域を指定し、「ダッシュボード」でくずし字OCRの進行状況を管理します。
その他、以下のページにも説明があります。
日本古典籍データセットの各ページ、および日本古典籍くずし字データセット 書名一覧のページに、KuroNetをお試しできるリンクを用意しました。
このサービスを使う際の大きなハードルは、「IIIFマニフェストをドラッグ&ドロップ」という操作にあります。この操作を簡単にするためのツールとして、Open in IIIF Viewerがあります。ブラウザ拡張機能としてこれをインストールし、オプションの「Open IIIF manifest link in (URL)」に「http://codh.rois.ac.jp/kuronet/iiif-curation-viewer/?manifest=」を設定すると、ボタン一つで開けるようになります。
また、KogumaNetくずし字認識サービスは、非IIIF画像に対する「一文字認識サービス」を提供します(準備中)。
現在のところ、非IIIF画像にKuroNetを適用するには、IIIFへの対応が必要です。第一に、自分が保有する画像やオープンデータであれば、Omekaなどのツールを用いてIIIF形式に対応した画像を作成し、それを使うことができます。第二に、図書館や博物館などの組織であれば、自館のシステムをIIIFに移行することを検討してください。世界の多くの図書館や博物館もIIIF形式による公開に移行しつつあり、長期的なトレンドとしてIIIF対応画像はますます増えていく見込みです。
将来的には、オープンソース版KuroNetも公開する予定です。ディープラーニング実行環境を自力でインストールするスキルがあれば、どんな画像にも利用できるようになります。
日本古典籍くずし字データセットを学習しているため、このデータセットに存在する文字しか認識できません。旧字と新字の統合などもこのデータセットの作成方針にしたがいます。またデータセットで出現頻度が低い文字は、認識が困難となる場合もありますので、精度を向上させるにはより大規模なデータセットを構築することが重要です。
また現時点では、以下の制限があります。
本サービスの利用は無料ですが、他の方々の利用をさまたげるような利用状況となった場合、利用制限などを行う可能性もあります。あらかじめご了承下さい。
KuroNetの参考文献のページをご覧下さい。