#76【OCR:AI殴り書きﾒﾓ読み取り選手権】AIモデル3種を比較してみた

100営業日後にたぶん生成AI講座を開く3年目社員アヒル

2024年6月25日 08:20

おはようございます。

25営業日後に『生成AI活用法』セミナーを開催するアヒルです。字は上手なほうです。

Claude 3.5 Sonnet (昨日の記事で紹介)がリリースされ、画像やテキスト認識もパワーアップしているそうなので、
今日はClaude 3.5 Sonnet含めた複数モデルを用いてOCR選手権を開いてみようと思います。

OCRとは？

OCR（Optical Character Recognition/Reader）は、光学文字認識と言われ、紙の文書や画像に含まれる文字をデジタルデータとして読み取る技術です。

これによって、スキャンした書類や写真からテキストを抽出し、編集可能な形式に変換することができます。

例えば、手書きのメモをデジタル化したり、印刷された本のテキストを検索可能にする際に使われたりします。

最近はiPhoneでも、カメラから文字を認識してくれますよね。自分も以前ベトナム土産でもらったよくわかんない調味料の成分表示や使い方を調べるのにOCR技術を使用しました。

検証ラインナップ

今回比較を行うのは以下の3モデルです。

①GPT-4o
②Gemini
③Claude 3.5 Sonnet

ただ読み取るだけでは物足りない、目指すはその先へ……！ということで、文字の入った画像を与え、読み取った内容をもとに回答を生成してもらいます。

テーマ：殴り書きメモの整理からアイデア出し

今回与えるメモはこちら。

生成AI勉強会メモ — 桑田佳祐が生まれた1956年に「AI」という言葉が登場したそう。

これは何かというと、今度一部の社内の人に向けて生成AI勉強会を行うことになったので、その草案といいますか、どんなこと話そうかなと殴り書いたメモです。

誤字ってたり崩してたりして、自分でなんとか読める程度のメモを、あろうことかAIに読み込ませてみます。

メモと一緒に与えるプロンプトは次の通りです。

このメモをもとにChatGPT勉強会の資料を作ります。きれいにまとめてください。追加したほうがよいトピックがあれば太字で追記してください。

ただメモの内容をまとめるだけでなく、追加のアイデアがあれば新たに補足してもらいます。

結果発表

個人的に回答内容がよかった順に発表します。

1位：Gemini

回答内容の質、量で言えば、1位はぶっちぎりでGeminiでした。
なんかこんなに補足してもらっちゃってすいませんというくらい色々と補足してもらいましたが、よく見ると自分がメモに書いていた"歴史"や"各社のAI"といったトピックはスルーされています。

……ほんとにメモ読んだんだろうか？プロンプトにChatGPT勉強会の資料って書いてあるからそれをもとに勝手に考えたんじゃないのか？という疑問も湧いたので、

新規チャット開いて「メモの内容を整理して。」とだけ伝えてもう一度メモの写真を渡したところ、

ちゃんと読んだ上で内容を補強してくれました。大変失礼致しました。

2位：Claude 3.5 Sonnet

2位はClaudeでした。見づらいっちゃ見づらいのですが、ChatGPTと他のモデルの比較や、生成AIが回答を生成する仕組み、今後の展望など広い視野でChatGPTを捉えている点が良かったです。

3位：GPT-4o

3位はGPT-4o。可もなく不可もない回答が、アヒルをやや真顔にさせました。
メモを忠実に読み取りまとめたうえで、申し訳程度に補足してくれました。派手さはないので今回3位にしましたが、まぁほか2つのAIに比べたら、自分のメモ、自分の考えを尊重してくれたみたいでちょっとうれしかったのも事実です。

文字起こしに使うんなら、脚色が少ないモデルを使うのもアリかもしれませんね。

まとめ

3つのモデルを使って、OCR殴り書きメモ読み取り選手権を行いました。三者三様の回答でおもしろかったですね。

最近自分はブレインストーミングに生成AIを使うことが増えてきました。自分だけじゃ出てこないアイデアをもらえることがあるので面白いです。

写真や画像から文字を認識してくれると、仕事や日常がぐっと便利になりますよね。もうすでにタイピングを面倒に感じている自分がいるので、これからは生成AIを使う時、画像や音声で指示を出すことが増えていきそうです。

お読みいただきありがとうございました！

この記事が参加している募集

#AIとやってみた

27,805件

この記事が気に入ったらサポートをしてみませんか？

コメントを投稿するには、ログインまたは会員登録をする必要があります。