見出し画像

「ごま塩おにぎり」を「読む」~国立国会図書館のNDLOCR-Liteを使おう~

こんにちは。
しらべちゃうアニマル、くまちゃんです。

画像

『NDLOCR-Lite』ってなに?

2026年2月24日、国立国会図書館が『NDLOCR-Lite』というOCRソフトを公開しました。
OCRソフトっていうのは、ざっくりというと「画像から文字を読み取ってテキスト化する機能」のことだよ。

これが『NDLOCR-Lite』の画面です。

画像
くまちゃん

こんな感じで、画像を読み取ってテキスト化してくれます。

くまちゃん、ここで疑問を持ちました。

画像
疑問:OCRツールで文字じゃないものを読み取ったらどんな言葉が出る?

ごま塩おにぎりを「読む」

今回はこちらのソフトを使って、「ごま塩おにぎり」を読んでいきたいと思います。

こちらが、くまちゃんが握った「ごま塩おにぎり」です。

画像

この写真を……

画像
CROP操作もできるよ

こんな感じでランダムに範囲指定して、文字認識してみます。

画像
1..010000

ふんふん……一番多いのは数字のパターン。多分ゴマが数字の「0(ゼロ)」に似てるからじゃないかな?

画像
一九、

漢数字のパターンもあるんだね。でも、なんとなくごま塩おにぎりの寡黙で実直な人柄が伝わってくるね。

画像
激熱湯

何?

初めて、意味のある言葉を読み取りましたが、なんだか迫力があります。
めちゃくちゃ熱い熱湯ってこと?

画像
東京
画像
機械

何かこわいね。ごま塩おにぎりは短編ホラー、もしくは文学作品なのかもしれない。

画像
する。

何を???


ごま塩おにぎり大喜利

さて、ここでコーナーです。
くまちゃんときつねちゃんで、ごま塩おにぎりを使った大喜利バトルをします。

画像
「お互いにごま塩おにぎりを握る」
「文字認識するまで範囲指定を繰り返す」
「納得いく答えがでるまでやり直して良い」

お題は以下の3つです。
「ワンピースの意外な正体、いったい何?」


「令和に代わる新しい年号、どんな年号?」


「ちゃんみながプロデュースする新しいガールズグループ、そのグループ名は?」


こちらが、大喜利に使用するごま塩おにぎり(デッキ)です。

画像

これらのおにぎりを使って大喜利回答をしていきます。

お題:
「ワンピースの意外な正体、いったい何?」

きつねちゃんの1回目の回答:

画像
ない

お題:
「ワンピースの意外な正体、いったい何?」

きつねちゃんの2回目の回答:

画像
金融資料


お題:
「ワンピースの意外な正体、いったい何?」

くまちゃんの1回目の回答:

画像
電流


お題:
「ワンピースの意外な正体、いったい何?」

くまちゃんの2回目の回答:

画像



お題:
「令和に代わる新しい年号、どんな年号?」

きつねちゃんの1回目の回答:

画像
新聞


お題:
「令和に代わる新しい年号、どんな年号?」

きつねちゃんの2回目の回答:

画像
熱気


お題:
「令和に代わる新しい年号、どんな年号?」

くまちゃんの1回目の回答:

画像
and


お題:
「令和に代わる新しい年号、どんな年号?」

くまちゃんの2回目の回答:

画像
後方



お題:
「ちゃんみながプロデュースする新しいガールズグループ、そのグループ名は?」

きつねちゃんの回答:

画像
SE


お題:
「ちゃんみながプロデュースする新しいガールズグループ、そのグループ名は?」

くまちゃんの回答:

画像
資金
画像
大喜利回答まとめ

大喜利は以上です。ここからは結果発表です。
勝敗は審査員の帽子パンダちゃんが判定します。

画像
審査員・パンダちゃん

パンダちゃん「これは…………きつねちゃんの勝ち!!」

(パンダちゃんの講評)
『ワンピースの意外な正体、いったい何?』→『ない』というのがおもしろかったからです。ガールズグループの名前が『SE』というのもいいね。バキバキに踊るシステムエンジニア、一生に一度は見てみたいもんね。
くまちゃんも頑張っていました。『電流』ってワンピースを見つけた瞬間、麦わらの一味が感電するのかな

画像
勝者 きつねちゃん

結論:
OCRツールで結構ごま塩おにぎりを読める。やろうと思えば大喜利もできる

以下、ごま塩おにぎりを読んでみたい人に向けてのコツです。

画像
「全体的に明るく、コントラスト強めに撮影・補正する」
「ノイズとなる他のものをフレームに入れない」
「引きで撮って、解像度は高すぎない方がよい」
「(なぜか)範囲指定をする時、縦長にした方がうまくいく」
「ごま塩ふりかけをつかうと、しょっぱくなるので黒ゴマをつかうのがおすすめ」

まとめ

さてOCR技術の意義についてまとめです。
「本の電子化」って一口に言っても、ただ写真で撮るだけか、テキストデータがあるかで全然活用のしやすさが違うんだ。
例えば「特定のキーワードがどこに出てくるか」確認したいとき、テキストデータが無いと、画像を1枚1枚しらべなくっちゃならない。そうすると、現物の本をめくるより大変になっちゃうよね。

逆に、テキストデータさえあれば、そのデータを解析することで、新しい事実がわかったりするかもしれない。

前回紹介した『NDL-ngram viewer』もOCR技術があってこそ、生まれたサービスだよ。

技術の進化に感謝したところで、今回はここまで。
読んでくれてありがとう。またね。

いいなと思ったら応援しよう!

この記事が参加している募集

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
くまちゃんのnoteです
「ごま塩おにぎり」を「読む」~国立国会図書館のNDLOCR-Liteを使おう~|しらべちゃうアニマル
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1