ニュース
江戸期以前の“くずし字”、精度80%以上でOCR処理、凸版印刷が技術開発
(2015/7/3 17:44)
凸版印刷株式会社は3日、江戸期以前の“くずし字”を高精度でテキストデータ化する新方式のOCR技術を開発したと発表した。同社では、この技術を使った古典籍のテキストデータ化サービスを今年夏より試験的に開始する予定。
凸版印刷が2013年から提供している「高精度全文テキスト化サービス」で確立したシステム基盤をベースに、公立学校法人公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせた。テキストデータ化済みの文献をくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でOCR処理できるようにした。
「近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められているが、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた」という。今回開発した新方式のOCR技術により、専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能になるとしている。
最新ニュース
- 実名グルメサイト「Retty」のMAUが1000万人を突破、飲食店DBのオープン化や2020年に向けた取り組みなど[2015/07/03]
- 標的型攻撃や内部不正などの現状まとめ、「情報セキュリティ白書2015」発刊[2015/07/03]
- バンダイナムコのIP開放プロジェクト、個人クリエイターによるアプリ開発などが可能に[2015/07/03]
- 「青空文庫」収録作品のプリントオンデマンド本、ジュンク堂書店池袋本店で販売開始[2015/07/03]
- 江戸期以前の“くずし字”、精度80%以上でOCR処理、凸版印刷が技術開発[2015/07/03]
- ベネッセ、小・中・高校生向けの電子図書館サービス「まなびライブラリー」提供[2015/07/03]
- 7月29日リリースのWindows 10はまず「Windows Insider」参加者に提供、その後、段階的に配信規模を拡大[2015/07/03]
- 東洋経済やフランス書院の電子書籍をブラウザーで閲覧、シャープ「EBLIEVA」採用サイト拡大[2015/07/03]
- 富士通の電子書籍サービス「BooksV」が9月29日で終了、購入累計額を外部ストア用ポイントで返還[2015/07/02]
- エレコム、LTE/3G通信回線がセットになったネットワークカメラ「SNC-M01AA」[2015/07/02]
- LINEのメッセージを窃取する遠隔監視アプリ、日本で市販中、米Lookoutが問題視[2015/07/02]
- Amazon.co.jpで「クロネコ延長保証サービス」開始、カメラ/タブレットPCの保証期間が2〜3年に[2015/07/02]
- ビッグローブ光、テレビ再送信とIP電話オプションを追加[2015/07/02]
- 座りっぱなしは健康に悪い? 人間工学に基づく製品を提供するエルゴトロン[2015/07/02]
- 「8時59分60秒」挿入完了、東京・小金井やTwitter上が「うるう秒」で盛り上がる[2015/07/01]
- 「ファミ通」「EYE・COM」「Hot-Dog PRESS」などの懐かしの創刊号を電子化、NTTドコモ「dマガジン」で期間限定配信[2015/07/01]
- Twitter公式アプリにニュースのキュレーション機能、日本限定でiOS版から提供開始[2015/07/01]
- ティーガイア、マウスコンピューター「MADOSMA」を採用した法人向けWindows Phoneソリューション[2015/07/01]
- 全国の中小企業に“簡単で快適なIT”を提案、テックウインドのセミナーが大阪で開催[2015/07/01]
- 集英社、マンガ投稿サービス「あしたのヤングジャンプ」プレオープン、「となりのヤングジャンプ」での連載も[2015/07/01]