アリス問題による日本語推論能力の比較

2024年6月8日 23:49

このツィートを見て、論文もざっくり確認しましたが、自分の体感とも少し異なっているため、英語ではなく日本語で、簡単に調査してみることにしました。

調査方法

基本的にhttps://arena.lmsys.org/で対戦しまくることで、結果がどうなるかを確認した。いくつかは、対戦でなくダイレクトチャットで追試をした。
また、PerplexityにあるモデルはPerplexityでもテストした。
使用したプロンプトは「女の子のアリスには4人の兄弟と1人の姉妹がいます。アリスの兄弟には何人の姉妹がいますか？」とし、LLMがアリスの性別がわからない為答えられませんとか言い出すことがないように調整した。
元のテストと異なり、姉妹や兄弟の人数を変えてのテストはしてないため、正確なものでないのは注意されたい。
誰かが、このテストを日本語で行って、論文にしてくれるのを期待する。
テスト結果の画像については次のnoteに全て上げてあるので気になる方は確認してください。
https://note.com/willplion/n/n72b36a50419c

結果

OpenAI、GPT4系列とGPT3.5

まずOpenAIのGPT4系列のモデルはいずれも正しい回答を行った。複数回でてきても間違えたことはなかったため、正答率は100%と言ってよい。GPT3.5は逆に正答することはできなかった。

Anthropic、Claude3-Opus、Sonnet、Haiku

AnthropicのClaude3-Opusももちろん正解した。対戦には出てこなかったため、Perplexityで一回、ダイレクトチャットで一回行ったがいずれも正解した。試行回数は少ないが、このクラスのLLMであれば正解できるということがわかった。
残念ながら、Sonnetは正解できず、Haikuは何故か一回正解できたが、これはまぐれ当たりであろう。

Google　Gemini1.5-Pro-latestとGemini1.0-ProとGemini1.5-Flash

GoogleのGemini1.5-Pro-latestは複数回でてきて、手元でAPIで回答させても正答率は100%だったが、Gemini1.0-Proは手元でAPIで回答させたところ正答率は0%だった。この0.5分のバージョンアップで日本語推論能力が大幅に向上したことがわかる。
また、最近Gemini1.5-Flash推しの自分としては極めて残念な結果だが、Flashの正答率は0%で論外だった。

Reka-CoreとReka-Flash、Reka-Edge

以外な結果だったのがReka-Coreだ。率直に行って、一度試して以降は、サイトが重くなったこともあるし、使うこともなく存在も忘れていたが、正答率は100%だった。どうやら公式ページのベンチマーク結果に嘘偽りはなかったようだ。なお、Reka-Core以外の下位モデルは駄目だった。
https://www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model

Qwen2-72B

Qwen2-72Bは何故か一回だけ間違ったのだが、ほぼすべて正答したので、充分な日本語推論能力を保有していることが確認できた。なかなかの脅威である。
それ以外のQwen1.5-110Bなどのモデルは登場回数は少なかったが正答率0%だった。
中国製LLMのライセンス問題は次のnoteを確認してください。

Perplexity　Sonar-large-32k

Llama3-70Bの強化学習モデルだが、Labsでのテストだと英語だが正解。Perplexityの通常使用だと日本語でちゃんと回答し、正解した。

Yi-large-preview

Yi-large-previewは回数が少なかったため追試したが、正答率は50%といったところだった。previewでないYi-largeは登場回数が少なかったが、これは正答率は30%程度で、日本語推論応力に問題があった。

Cohere Command-R+とCommand-R

CohereのCommand-R+は残念な結果となった。回答が1か2かどちらかを数値だけで回答し、大体の正答率が30％といったところであった。Command-Rは駄目だった。

Microsoft　Phi3-medium、Small、mini

Phi3-mediumは驚くことにほぼ50%の確率で正解した。わずか14Bサイズで正答できるだけでも驚きである。Smallとminiはさすがに正答できなかった。

Llama3-70B

とても残念なことなのだが、Llama3-70Bは複数回出てきたのだが、一回も正答できなかった。
PerplexityのSonar-large-32kが正当できていることから考えると、やはり日本語の学習量が少なすぎて、日本語での推論能力に問題があるのだろう。

結論

ほとんどのLLMプロバイダーの上位モデルにおいては、アリス問題に関しては回答ができることがわかった。特に最新のモデルであれば答えられて当たり前といった状態になっている。
残念なのはオープンモデルの雄であるLlama3-70Bが論外だったことだ。
それでもLlama3-70Bの強化学習モデルであるPerplexityのSonar-large-32kが回答できていることを考えれば、適切な追加学習で日本語での推論能力が獲得できたと見ることが出来る。
そうなってくると、俄然期待したくなるのはPhi3-mediumの日本語強化学習モデルの登場だろう。ローカルで本当の意味で賢さを持ったモデルが使えるとなると夢が広がる。
逆にGemini1.5-FlashをAPI経由で最近メインで使っている自分には、この問題に全く回答できないのは大変残念だった。
今後のさらなる学習に期待したい。

なおページの画像はStableCascadeを使用して、fantasy, whimsical, Alice in Wonderland, Cheshire Cat, tea party, clock, rabbit hole, playing cards, mushrooms, vibrant colors, surreal, dreamlike, detailed, intricate, high resolutionというプロンプトで出力した画像。プロンプトはGemini1.5-FlashにStablediffusion用プロンプト作成用のシステムプロンプトを使用して作成したものです。

いいなと思ったら応援しよう！

コメントするには、ログインまたは会員登録をお願いします。

アリス問題による日本語推論能力の比較

調査方法

結果

OpenAI、GPT4系列とGPT3.5

Anthropic、Claude3-Opus、Sonnet、Haiku

Google Gemini1.5-Pro-latestとGemini1.0-ProとGemini1.5-Flash

Reka-CoreとReka-Flash、Reka-Edge

Qwen2-72B

Perplexity Sonar-large-32k

Yi-large-preview

Cohere Command-R+とCommand-R

Microsoft Phi3-medium、Small、mini

Llama3-70B

結論

いいなと思ったら応援しよう！

コメント

AIの思考力検証：”文字と数字”編

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆ 自作LoRA

中華系AI 6種に「日本語は得意？」と聞いてみた結果

「しりとり」から分かるAIの能力差

【ローカルLLM】GLM-4.7-flashを使ってみた話【A3B-MOE-30B】

大規模言語モデルLLM（自宅のPCで動かせるAI）を使ってみた

LFM2.5-JPを試そうとした！

LM StudioでAIの規制・検閲を解除する方法（ローカルLLMの特権）

GPTとGeminiどっちが賢い？数独対決

ラズパイでLLMその23（弾丸旅・1泊3日海外旅行・予算20万円Rd.2）

低価格帯ノートPCにローカルLLMを入れてみた

SWIMMER OSINT CTF Write-UP

【AIを過去半年で200時間使った人が解説】ChatGPT、Gemini、Claude、Grokの出力の見分け方

【AIとやってみた】AIのつく、もっともらしい嘘：ハルシネーション【書籍推薦は壊滅的】

N100 メモリ8GB グラボなし でローカルAIを触る（結論：無理）

ローカル環境でのおすすめのアニメ系画像生成AIモデル

VRAM が大きくなくたって、ローカルLLMで、大きなコンテキストを扱いたい

ローカルAI ２

「LLMUnity」を試してみました。

素？-AI専門家の実力をメタ認知で計測するテストを設計した-

ローカルLLMの精度検証がめんどうくさいので、ローカルLLMの精度検証アプリをローカルLLMに作らせてみた

日刊 openAI/Gemini/Claude 主要モデル変動簡易レポート 2026年01月13日

LLM世論調査は可能なのか？

LLMの画像生成で英語とポーランド語のプロンプト比較、画像生成の言語差を検証

RogAllyで使うローカルAI

ローカルLLMが使える。Ollamaって何？

【画像生成AI】2025冬 プロンプト作成に最強のLLMはどれ？おすすめモデルを徹底比較検証！（個人の感想です。）はじめてのnote

クリスマスはGPT-5並みのモデルとチャHしよう【GLM-4.6/minimax-m2/mistral-large-3-2512】

Comfyui-Z-Image-Utilities ローカルLLMでプロンプトを拡張

そんなに高スペックでもないミニPCでローカルLLMを使ってみる話

ComfyUIでVision LLMを遊ぶ：同じ画像を複数モデルに説明させてみた

2025年に登場したAIモデル一覧をChatGPTに書き出させてみた

Gemini 3 Flashを触ってみる

GeminiとGPT-5.2にロンゴ・ロンゴを解読してもらおうと思ったけどダメだった

「琉球」と「日本」

【2025年12月最新版】エンジニアは結局どのLLMを使うのが一番いいの？ SWE-benchを全部調べたら衝撃の結論が出た〜

AIの思考力検証：”文字と数字”編

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆ 自作LoRA

中華系AI 6種に「日本語は得意？」と聞いてみた結果

「しりとり」から分かるAIの能力差

【ローカルLLM】GLM-4.7-flashを使ってみた話【A3B-MOE-30B】

大規模言語モデルLLM（自宅のPCで動かせるAI）を使ってみた

LFM2.5-JPを試そうとした！

LM StudioでAIの規制・検閲を解除する方法（ローカルLLMの特権）

GPTとGeminiどっちが賢い？数独対決

ラズパイでLLMその23（弾丸旅・1泊3日海外旅行・予算20万円Rd.2）

低価格帯ノートPCにローカルLLMを入れてみた

SWIMMER OSINT CTF Write-UP

【AIを過去半年で200時間使った人が解説】ChatGPT、Gemini、Claude、Grokの出力の見分け方

【AIとやってみた】AIのつく、もっともらしい嘘：ハルシネーション【書籍推薦は壊滅的】

N100 メモリ8GB グラボなし でローカルAIを触る（結論：無理）

ローカル環境でのおすすめのアニメ系画像生成AIモデル

VRAM が大きくなくたって、ローカルLLMで、大きなコンテキストを扱いたい

ローカルAI ２

「LLMUnity」を試してみました。

素？-AI専門家の実力をメタ認知で計測するテストを設計した-

ローカルLLMの精度検証がめんどうくさいので、ローカルLLMの精度検証アプリをローカルLLMに作らせてみた

日刊 openAI/Gemini/Claude 主要モデル変動簡易レポート 2026年01月13日

LLM世論調査は可能なのか？

LLMの画像生成で英語とポーランド語のプロンプト比較、画像生成の言語差を検証

RogAllyで使うローカルAI

ローカルLLMが使える。Ollamaって何？

【画像生成AI】2025冬 プロンプト作成に最強のLLMはどれ？おすすめモデルを徹底比較検証！（個人の感想です。）はじめてのnote

クリスマスはGPT-5並みのモデルとチャHしよう【GLM-4.6/minimax-m2/mistral-large-3-2512】

Google　Gemini1.5-Pro-latestとGemini1.0-ProとGemini1.5-Flash

Perplexity　Sonar-large-32k

Microsoft　Phi3-medium、Small、mini

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆自作LoRA

N100 メモリ8GB グラボなしでローカルAIを触る（結論：無理）

ローカルAI　２

【画像生成AI】2025冬プロンプト作成に最強のLLMはどれ？おすすめモデルを徹底比較検証！（個人の感想です。）はじめてのnote

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆自作LoRA

N100 メモリ8GB グラボなしでローカルAIを触る（結論：無理）

ローカルAI　２

【画像生成AI】2025冬プロンプト作成に最強のLLMはどれ？おすすめモデルを徹底比較検証！（個人の感想です。）はじめてのnote