ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。

2024年4月20日 18:34

LMSYS Chatbot Arena: Benchmarking LLMs in the Wildは、オープンソースで人間がLLMの勝ち負けを評価する研究で、現在40種類のLLMのうち、2つのLLMが一定の基準(得点が定まったものは選ばれにくくなるなど)で選ばれて、その出力結果を人間がAとBのLLMの名前が伏せられた状態で、どちらが優れているかを評価するテストです。
その結果もリンク先のLeaderBoardタブから閲覧することが出来ます。

調査方法

今回の目的は、主にLlama3-70BとLlama3-8Bの日本語知識と回答の傾向を見ることだったので、その2つが対戦に現れるまでは、他のLLMでも評価はしつつ、質問をし続けた。
リジェネレイトしても英語でしか回答が得られなかった場合は、日本語で回答するように促した。
質問項目は以下の6つで、個別に質問をした。

1:「銀河英雄伝説について、日本語で詳しく教えて下さい。」
意図としては海外でも翻訳されており、最近アニメ化もされ、知識が相当量学習されている可能性が高いが、ドラゴンボールやワンピース、ナルト等よりはサブカル向け色が強い作品として採用した。

2:「ナーロッパと言われる小説家になろうというサイトの小説の舞台にされる世界について、日本語で詳しく教えて下さい。」
著作権云々で断れない、サブカル的な概念をどの程度理解しているかのチェックとして採用した。ただ、質問の日本語が良くなかった。小説家になろうの小説は別にナーロッパという世界そのものを舞台にはしておらず、なろうに多い中世ヨーロッパ風だけど、それとは違う世界観を揶揄したような名称なので、回答がおかしくなるのも仕方のない側面があった。

3:「千葉県の観光名所を10箇所、日本語で詳しく教えて下さい。」
いつも自分が最初にテストする時に使ってる「千葉県の観光名所を10箇所教えて下さい。」に日本語で答えるように付け加えたもの。東京ディズニーランドのようなトラップもあり、観光地としては京都や東京に比べるとマイナーなため、個人的には知識量のテストとして悪くない設問と考えてるため採用した。なお、私は生まれも育ちも千葉県です。

4:「日本神話について、日本語で詳しく教えて下さい。」
これは日本に対する根本的な知識のチェックとして採用した。

5:「サブカルチャーにおける織田信長について、日本語で詳しく教えて下さい。」
サブカルチャーにおける織田信長の扱いは多様で、回答によってLLMの知識や傾向が見えやすいのではと思って採用した。

6:「ぼっとん便所について、日本語で詳しく教えて下さい。」
ほぼ死語と化しているが、現在も存在しているトイレの一形式であり、呼び方がおそらく日本特有のため、知識チェックとして面白いだろうと採用した。
ChatbotArenaでの対戦画像はこちらを見てください。
基本的に見る必要はないものです。

各LLMの評価

Llama3-70B-instruct

絵文字を最初に使用するのが特徴的で、すぐにこいつだと分かってしまうため、Arenaでの得点が正しいものかと言うと怪しいが、傾向として日本語の回答の品質はサブカル系に関しては高かった。
一方知らないことは捏造して回答する傾向が極めて強く、2と6に関しては完全に捏造するなどの問題があった。
また、英語で回答してくることが多く、適切なシステムプロンプトと、今後の日本語インストラクションモデルの登場を待ちたい。

Llama3-8B-instrust

こちらも絵文字を最初に使用するのが特徴的で、すぐにこいつだと分かってしまうため、Arenaでの得点が正しいものかと言うと怪しい。
サイズを考えると、頑張ってはいるがややサブカル知識は強いものの、中途半端に覚えていて、捏造が目立つ。
こちらも英語で回答してくることが多く、適切なシステムプロンプトと、今後の日本語インストラクションモデルの登場を待ちたい。

Gemini-Pro-dev-api

こちらはバージョンが固定されておらず、どうも常に最新版が使われるようで、リーダーボードのスコアや順位は構成とは言い難いものになっていて、文句を言ってる人がRedditにもいる。そのため、2024/04/20現在の評価となる点に注意されたい。なお、おそらくはGeminiPro1.5に多言語能力を強化したバージョンのものであると思われる。
また、出力結果に対して装飾を使ってくるため、一発でGeminiだとわかってしまう点でも公正なテストになっているとは言い難い。
それでも、今回の知識を試すようなテスト項目では、少なくとも全LLMで最強と言って良い性能だった。
知識も豊富でハルシネーションらしきものも見当たらなかった。

Claude3-Opus

全てのテストで出てきたわけではないが、当然日本語能力も知識も良好。ChatbotArenaで出てこなかったのは回数の減ったPerplexityでテストしたが、2は理解が今一つで捏造もしてきたし、5に関しては歴史上の織田信長のイメージ的な説明ばかりで、間違っているわけではないが物足りない印象を受けた。

Claude3-SonnetとHaiku

これも全てのテストで出てきたわけではないが、日本語能力と知識は良好。ただし、回答は短め。

GPT4-Turboシリーズ

当然日本語能力も知識も良好。ただし、ナーロッパは設問が悪かったこともあるが、理解してない回答が多かった。

Mixtral-Mistralシリーズ

22b×8やMistral-largeであれば、日本語を話させれば、ちゃんと日本語を話すことは出来るが、日本の知識量はまだまだ学習が足りておらず、ハルシネーションが多い。

Qwenシリーズ

こちらも一応日本語は話せるが、知識量が今ひとつ。また、簡体字が混ざる事が多く、すぐにQwenだなとわかる。

結論

テストには出てこなかったが、日本語がダメなMistral-7bベースに日本語追加学習をしたjapanese-stablelm-instruct-gamma-7bを更にベースとして追加学習したモデルを合わせて、日本語能力を大幅に高めることに成功したLightChatAssistant-2x7BとLightChatAssistant-4x7Bの存在を考えると、Llama3-8Bの日本語魔改造モデルが今後のローカル向け日本語モデルとしては有力になるのではなかろうか。
また、QwenシリーズもCodeQwen7Bの高性能ぶりを見ると、簡体字が出まくることや、日本語知識が不足してる点を補えば良いベースモデルになるかも知れない。

日本語能力を高めるのに協力したい方は2024/04/20に公開された

に参加すると、日本語応答能力が向上して、みんなが幸せになれるかも知れない。

オープンでないクローズドなモデルとしては、Gemini-Pro-dev-apiの日本語知識が極めて優秀で、wikipedia替わりとしては良いと思う、それ以外の要約タスクでも優秀なので、おすすめできる。とはいえ、創造的タスクは先月小説の作成テストをした時はテスト用データの生成を諦める程度にはひどかった(各ジャンルの小説を3000字以上作成すれば合格のテストだが、1500字程度の粗筋みたいなのしか生成できなかった)ので、そういうタスクはClaude3-OpusかGPT4-Turboに任せたほうが良いとは思う。
もっとも、現在はマシになっている可能性もあるが。

　表紙画像はStableCascadeで「ChatbotArena, masterpiece, best quality」という、表題英訳をそのまま突っ込んでできた画像です。

いいなと思ったら応援しよう！

LLM評価

3本

コメントするには、ログインまたは会員登録をお願いします。

ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。

調査方法

各LLMの評価

Llama3-70B-instruct

Llama3-8B-instrust

Gemini-Pro-dev-api

Claude3-Opus

Claude3-SonnetとHaiku

GPT4-Turboシリーズ

Mixtral-Mistralシリーズ

Qwenシリーズ

結論

いいなと思ったら応援しよう！

ピックアップされています

LLM評価

コメント

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆ 自作LoRA

SillyTavern ローカルLLMでチャットbotを作る LLMはどれにする？ OllamaとHugging Faceで楽々ダウンロード

「LLMUnity」を試してみました。

大規模言語モデルLLM（自宅のPCで動かせるAI）を使ってみた

低価格帯ノートPCにローカルLLMを入れてみた

「しりとり」から分かるAIの能力差

ラズパイでLLMその13（独自旅・1ヵ月・予算制限なし）

LFM2.5-JPを試そうとした！

ローカルLLMの精度検証がめんどうくさいので、ローカルLLMの精度検証アプリをローカルLLMに作らせてみた

2025年末チャットボット用ローカルLLM比較検証 ーー LLMに癒やしを求めるのはナンセンスか？

ローカルLLMが使える。Ollamaって何？

LM StudioでAIの規制・検閲を解除する方法（ローカルLLMの特権）

【徹底解説】AI選びはもう迷わない。AI評価サイトでモデル選定を効率化する方法

【2026年最新】日本語LLMの新常識！Qwen3が本気でヤバい件について🚀 100円で学ぶ次世代AI活用術

中華系AI 6種に「日本語は得意？」と聞いてみた結果

N100 メモリ8GB グラボなし でローカルAIを触る（結論：無理）

信玄公の動画でAIを試す？〜信玄公ベンチマーク〜

【ふわっとエッセイ】thoughtful節

VRAM が大きくなくたって、ローカルLLMで、大きなコンテキストを扱いたい

ローカルAI ２

LLMにいい超性能小説を書かせる方法

GPT-OSS-120BをベースにしたHyperNova-60Bって知ってる？

【無料で最新AIが使える！】LM arenaを使い倒す

S7 ProでQwen3を回す。文章要約用途なら8Bがちょうどよかった話

そんなに高スペックでもないミニPCでローカルLLMを使ってみる話

RogAllyで使うローカルAI

RimtalkをローカルAIで動かすメモとか環境とか

<お役立ち！たかちゃんのAIコラム> Google Colaboratoryで始めるLLMファインチューニング(3)

ローカルLLMだけでゲームブックを作ろうとして、失敗した話

わからないまま、1ヶ月触ってみた記録

【つぶやき】NotebookLMで遊ぶ

ローカルAIを使ってModの翻訳をしてみた話

AIはなぜ平気でウソをつくのか -- Gemma-3で見るハルシネーションの正体と付き合い方

GPT-OSS-20B をローカル環境で試したら貫禄を見せつけられた

第一回LLM対抗クイズ大会：論理はGemini

小学生に教えてもらった「伝え方」のヒント

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆ 自作LoRA

SillyTavern ローカルLLMでチャットbotを作る LLMはどれにする？ OllamaとHugging Faceで楽々ダウンロード

「LLMUnity」を試してみました。

大規模言語モデルLLM（自宅のPCで動かせるAI）を使ってみた

低価格帯ノートPCにローカルLLMを入れてみた

「しりとり」から分かるAIの能力差

ラズパイでLLMその13（独自旅・1ヵ月・予算制限なし）

LFM2.5-JPを試そうとした！

ローカルLLMの精度検証がめんどうくさいので、ローカルLLMの精度検証アプリをローカルLLMに作らせてみた

2025年末チャットボット用ローカルLLM比較検証 ーー LLMに癒やしを求めるのはナンセンスか？

ローカルLLMが使える。Ollamaって何？

LM StudioでAIの規制・検閲を解除する方法（ローカルLLMの特権）

【徹底解説】AI選びはもう迷わない。AI評価サイトでモデル選定を効率化する方法

【2026年最新】日本語LLMの新常識！Qwen3が本気でヤバい件について🚀 100円で学ぶ次世代AI活用術

中華系AI 6種に「日本語は得意？」と聞いてみた結果

N100 メモリ8GB グラボなし でローカルAIを触る（結論：無理）

信玄公の動画でAIを試す？〜信玄公ベンチマーク〜

【ふわっとエッセイ】thoughtful節

VRAM が大きくなくたって、ローカルLLMで、大きなコンテキストを扱いたい

ローカルAI ２

LLMにいい超性能小説を書かせる方法

GPT-OSS-120BをベースにしたHyperNova-60Bって知ってる？

【無料で最新AIが使える！】LM arenaを使い倒す

S7 ProでQwen3を回す。文章要約用途なら8Bがちょうどよかった話

そんなに高スペックでもないミニPCでローカルLLMを使ってみる話

RogAllyで使うローカルAI

RimtalkをローカルAIで動かすメモとか環境とか

<お役立ち！たかちゃんのAIコラム> Google Colaboratoryで始めるLLMファインチューニング(3)

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆自作LoRA

SillyTavern ローカルLLMでチャットbotを作る　LLMはどれにする？　OllamaとHugging Faceで楽々ダウンロード

2025年末チャットボット用ローカルLLM比較検証ーー LLMに癒やしを求めるのはナンセンスか？

N100 メモリ8GB グラボなしでローカルAIを触る（結論：無理）

ローカルAI　２

<お役立ち！たかちゃんのAIコラム>　Google Colaboratoryで始めるLLMファインチューニング(3)

【検証】LMF2.5の実力を比較テスト：LMF2.5-1.2B vs llm-jp-3.7B ＆自作LoRA

SillyTavern ローカルLLMでチャットbotを作る　LLMはどれにする？　OllamaとHugging Faceで楽々ダウンロード

2025年末チャットボット用ローカルLLM比較検証ーー LLMに癒やしを求めるのはナンセンスか？

N100 メモリ8GB グラボなしでローカルAIを触る（結論：無理）

ローカルAI　２

<お役立ち！たかちゃんのAIコラム>　Google Colaboratoryで始めるLLMファインチューニング(3)