ローカルLLMの小説生成能力を評価する：中規模モデル編

2025年2月7日 12:48

中規模モデルクラス、恋愛小説部門の評価です。

はじめに

近年、ローカル環境で動作する比較的小規模なLLM（Large Language Model）の性能が向上しています。本記事では、パラメータ数20～30B程度のローカルLLM（量子化を行うと24GB VRAM程度で動作するもの）を中心に、それらのLLMの小説生成能力を、より大規模なクラウド型LLMを用いて評価する試みについて報告します。

なお、試行回数は生成、評価とも1回のみ、プロンプトや生成設定なども練れていませんので、参考程度にお読みください。またこの記事には一部Claude 3.5 Sonnetに書いてもらった部分があります。

（追加）以下の記事で生成された各小説をすぐに読めるよう公開しました。

評価手法の検討

評価の課題

小説の評価には通常、人間による読解と評価が必要です。しかし、これには以下のような課題があります：

評価に多大な時間と労力が必要
評価基準の統一が難しい
多数のサンプルを評価することが困難

提案手法

そこで本実験では、クラウド型の大規模LLMによる評価を試みました。当初数値評価を試みたところ、小説の内容に関わらず高得点が付けられる傾向にあったため、2つの小説による相対評価を用いて、優劣を判断させることとしました。

実験設計

評価対象・小説生成用ローカルLLM

手元にあったモデルを使ったため詳細なダウンロード元は不明ですが、主にmomonga氏が量子化されているものを中心に使用しています。

00 aya-expanse-32b-Q6_K_L
01 c4ai-command-r-08-2024-Q4_K_M
02 c4ai-command-r-v01-Q4_K_M
03 calm3-22b-RP-v2-Q6_K
04 CohereForAI-c4ai-command-r-plus-IQ2_XXS
05 gemma-2-27b-it-Q5_K_M
06 Mistral-Small-24B-Instruct-2501-Q6_K_L
07 nitky-RoguePlanet-DeepSeek-R1-Qwen-32B-Q8_0
08 phi-4-Q4_K_M
09 Qwen2-7B-Instruct_Q8_0

09 Qwen2-7B-Instructは一回り小さめの7Bのモデルになります。04はCommand-R+を24GBでもギリギリ動くレベルまで思いきり独自に量子化したものです。

ローカルLLMではありませんが、比較用に以下のクラウド型LLMの生成結果、および自作の小説を追加します。

10 ChatGPT 4o
11 Claude 3.5 Sonnet
12 自作小説

生成された小説の代表的なサンプル（一部のみ）はページ末尾に載せます。また各小説の全文も同様にページ末尾に.zip形式で添付します（冒頭で紹介した記事からも読めます）。

評価用クラウドLLM

Gemini 2.0 Flash Experimental
gpt-4o
Claude 3.5 Sonnet-20241022
tokyotech-llm Llama-3.1-Swallow-70B-Instruct-v0.3 Q8_0
Command-R+ q8_0

最後の二つはクラウドLLMではありませんが、ローカルで動作する比較的大規模なモデルとして選択しました。

生成プロンプト

長さをあまり長くすると破綻しそうでしたので、2,000文字を指定します。ジャンルは、ミステリーは文字数的に厳しそう、SFは評価が難しそう、ということで恋愛小説を対象にしました。

以下の条件で小説を書いてください：

ジャンル：恋愛
文字数：2000字程度
想定読者層：社会人女性
※起承転結を意識し、読みやすく、感情豊かな文章を心がけてください。

評価プロンプト

Chain-of-Thought的な効果を期待して、それぞれの小説を分析してから、総合評価を出力する形としました。

あなたは経験豊富な文芸評論家です。
以下の二つの小説は恋愛ジャンルの短編小説です。それぞれの小説の優れた点、改善点を指摘し、最後にどちらの小説が優れているかを評価してください。

評価の形式：
それぞれの小説について、以下のテンプレートに沿って記述してください。
```
■小説[A/B]：
・分析：作品中の具体的な事例や観察に基づき、簡潔な分析を記述してください。
・優れた点：上記の分析に基づき、作品の優れた点を簡潔に記述してください。
・改善提案：可能な改善点や工夫すべき点を簡潔に記述してください。
```

最後に、以下のテンプレートに沿ってどちらの小説が優れているかを評価してください。
```
■総合評価：
・優れている小説：[A/B]
・判断理由：優劣を分けた決定的な要因を1-2文で
```

小説A：
$TEXT_A

小説B：
$TEXT_B

評価方法

初期評価フェーズ
- Command-R+で、3作品で総当たり評価（順序入れ替えあり）
- 評価の一貫性と順序バイアスの確認
  →AとBを入れ替えても評価が同一だったため、本評価は一方向のみとして評価回数を削減した（小説1と小説2がある場合、「A:小説1、B:小説2」のペアのみ評価し、「A:小説2、B:小説1」は評価しない）。
本評価フェーズ
- 対象から2つの小説を選び、順次評価していく。
- ある小説が小説A側だけにならないように、A/Bは交換しつつ評価（小説indexの計が偶数の時に交換）

実験結果

生成小説の文字数

空白文字、改行含まず。

各評価者の評価

Gemini 2.0 Flash Experimental

gpt4o

Claude 3.5 Sonnet

Command-R+

Swallow

考察

あまりこういった分析には詳しくないため、SonnetとChatGPT-4oと、どんな分析がいいのか相談しながら分析しました。各LLMが作成したコードはざっくり確認しましたが、もしかしたら誤りが含まれているかもしれません。

評価者について

生成小説の前に、まずは評価の妥当性を確認します。

推移的一貫性（A>BでB>Cなら A>C、と評価が一貫しているか）を評価するCycle Analyticsは以下のようになりました。Sonnet 3.5は完全な一貫性があり、優劣の評価が全くぶれませんでした。それに対してCommand-R+は評価する小説同士の組み合わせにより、かなり評価が変わってくるようです。

評価者間の判断のばらつきを示すKendall's Tau Agreement MatrixとWeighted Agreement Matrixは以下のようになりました。GeminiとSonnet 3.5は比較的高い一致度で、Command-R+は他のモデルとは異なる傾向であることがわかります。

この傾向から、5つのモデルの評価を組み合わせることで、多面的な評価ができるかもしれません。また評価モデルを減らすなら、Sonnet 3.5とGeminiからどちらか片方を選び、それにCommand-R+を追加、などの組み合わせも考えられるようです。

Claude 3.5 Sonnetの分析は以下のようなものでした。

これらの結果と先ほどの一致度分析を組み合わせると、以下のような総合的な解釈が可能です：
1. Sonnet3.5とSwallow/Geminiは比較的似た判断傾向を持ち、かつ一貫性も高い
2. Command-r-plusは他とは異なる判断を行い、かつ状況依存的な評価を行っている
3. GPT-4oは中間的な位置づけながら、評価の一貫性はやや低い

各小説の評価と評価者との関係

次に、勝率と信頼度スコア、評価者間の一致度、およびTop 3選出回数は以下のようになりました。

小説10、12、0が上位グループ、4、9、3は下位グループ、そして残りは中間グループと分けられそうです。

また信頼度スコアは比較的高いため、5つのモデルによる評価システムは、まずまずうまく機能していそうです。

生成小説の具体的評価

ここで小説10～12は、ローカルLLMの生成小説ではない比較用の小説のため、それらを除いて評価していきます。

まず、比較用小説に対する各小説の成績を見てみます。

比較用小説にはさすがに苦戦していますが、小説0、2、5が強いようですね。その他との勝率でも、0と2は強いです。小説7と6は、比較用小説には負けますがその他との勝率は50%を超えています。独自の強みがあるのかもしれません。

Command-R+は評価にばらつきがあるので、こちらを除外してみます。またCommand-R+と同じCohere開発のモデルが評価対象に含まれているので、身内びいきの可能性もあるかもしれません。

どの小説が強いか、かなり見えてきたように思います。2、0、5はCommand-R+を除いても強いですね。

以下、Claude 3.5 Sonnetのコメントを引用します。

Command-R+を除外した分析から、以下のような興味深い知見が得られました：

1. 評価の安定性が向上：
・評価者間の一致度が全体的に向上し、多くの小説で80%以上の一致度を示しています
・特にNovel 2とNovel 3は95.8%という非常に高い一致度を示しています

2. 上位グループの明確化：
・Novel 2, 0, 5 が明確な上位グループを形成：
　・Novel 2: 比較用小説との対戦で33.3%、その他との対戦で80.6%
　・Novel 0: 比較用小説との対戦で25.0%、その他との対戦で86.1%
　・Novel 5: 比較用小説との対戦で25.0%、その他との対戦で72.2%
3. 評価者間での一貫した評価：
・Novel 0: 全評価者のTop3に入っており、特にgpt-4oとswallowで83.3%という高い勝率
・Novel 2: 3人の評価者のTop3に入り、特にgeminiで75.0%の勝率
・Novel 5: 同じく3人の評価者のTop3に入り、sonnet3.5で75.0%の勝率
4. 興味深い特徴を持つ小説：
・Novel 6: 比較用小説との対戦では勝利なしですが、その他との対戦では66.7%と健闘
・Novel 7: 比較用小説との対戦では16.7%ですが、その他との対戦で63.9%を記録し、特にswallowで高評価

Command-R+を除外することで、より安定した評価結果が得られ、小説間の品質差がより明確になりました。特にNovel 2, 0, 5の3作品は、安定して高い評価を得ており、比較用小説には及ばないものの、一定の品質水準に達していると評価できます。

比較用の3つの小説についても少し見てみます。

小説12は安定した評価を得ていますが、11はそれなり、そして10は最も評価が分かれる結果になりました。たしかに小説10の本文を読むと、雰囲気重視で他とはだいぶ異なる内容なので、この結果もうなずけます。

最後にEloレーティングを貼り付けておきます。

まとめ

優れているモデルは？

以上から、今回の評価では、以下の3モデルがこの規模のモデルでは一歩秀でている、という結論になりました。

00 aya-expanse-32b-Q6_K_L
02 c4ai-command-r-v01-Q4_K_M
05 gemma-2-27b-it-Q5_K_M

ただ、これはあくまでも今回の結果はこうなった、というだけで、モデルの性能を直接示すものではありません。また特にcalm3-22b-RP-v2はロールプレイ用モデルですのでスコアが低いのはある意味当然で、申し訳なかったと思います。

ちなみに、生成されたgemmaの小説には一つ明確な欠陥があり、恋愛小説ではないのですが、評価コメントを見るとあまり評価に影響しなかったようです（また実際の使用時には、プロンプトで何とかなるように思います）。

プロンプトについて

生成プロンプトの2,000文字指定は明らかに短かったようです。ここに起承転結を盛り込もうとすると展開が急になり、むしろ読みにくくなるのかもしれません。プロンプトを無視してワンシーンだけにした小説（10 gpt-4oなど）が高い評価を得たりもしていました。

とはいえこれ以上長くしても破綻が増えそうですし、ワンシーンを指定して執筆させる、といった方向が良いかもしれません。

評価用プロンプトにも、文字数情報を追加で提示して評価指標の一つにする、題材が適切かを評価させる、などさらなる工夫が必要かもしれません。

感想

以前から、LLMの生成する小説は（クラウドLLMも含めて）描写が単調で緩急に乏しく、あらすじに毛が生えたようなものだと感じていましたが、今回の小説もその印象を大きく覆すものではなかったように思います。しかしながら、LLMのサイズを考えると上位陣はかなりのレベルで、特にaya-expanse-32b、c4ai-command-r-v01の二つには、そこから一歩抜き出せそうな期待を覚えました。

スーツを身にまとったその人は、風に吹かれながら、こちらに向かって歩いてくる。美和子は心臓が弾むのを感じた。高揚感。久しぶりに味わうこの感覚は、きっと恋なのだろう。

c4ai-command-r-v01、体言止めがいい感じ

順位について見てみると、ChatGPT 4o、Clause 3.5 Sonnet、それに自作小説を加えましたので、上位はこれらで安定するかと思いましたが、意外にローカルLLMの生成小説も上位に食い込んできました。個人的にはやや驚きの結果でした。自作小説がEloレーティングで1位になれなかったのは残念です。

また、現状のLLMによる評価の限界も見えたように思います。人間が見ると明らかな欠陥、たとえば論理の破綻や小説としての体裁をなしていない、などが見過ごされるようです。また、いわゆる雰囲気重視で、印象に流される評価が見られたように思います。

とはいえ、生成、評価とも一定の水準にあり、今後が楽しみです。ローカルLLMがもう少し進化すると、「あとは好みの問題」というレベルに達してくれるのではないかと思います。

可能ならもう少しサイズの大きなモデルの生成結果についても評価してみたいと思います。

補足：実験の詳細データ・生成された小説のサンプル

00_aya-expanse-32b-Q6_K_L

冒頭部分、以下同様

# 偶然の出会い、運命の恋

都会の喧騒に包まれたある春の日、物語は始まった。

올rる会社員の美咲は、いつも通り満員電車に揺られ、東京の繁華街にあるオフィスへと向かっていた。混雑した車内で、彼女は窓際に立って、ぼんやりと外を眺めていた。桜の花びらが舞う中、一人の男性が美咲の目に留まった。彼は電車の扉の前に立ち、美咲とは反対方向を見つめていた。柔らかい笑顔を浮かべたその男性は、どこか優しげな雰囲気を纏っていた。

美咲は思わず見惚れてしまう。その瞬間、電車が急ブレーキをかけた。美咲はよろめき、その男性に手を掴まれた。

「大丈夫ですか？」

心配そうに問いかける彼の声は、低くて穏やかだった。美咲は顔を上げ、はっとして謝った。

「あ、すみません。お陰で転ばずに済みました」

「いえ、こちらこそ。混んでますからね」

彼は微笑み、手を離した。その時、美咲は彼の手から伝わる温もりを感じた。一瞬の出来事だったのに、なぜか心が弾むのを感じた。

02_c4ai-command-r-v01-Q4_K_M

『恋する季節、風の色』

秋風が心地よい季節になった。ある日、美和子はその風に吹かれながら、ふと足を止めた。街行く人の流れにまぎれ、視線の先に広がるのは、高層ビルが立ち並ぶ都心の景色。駆け引きと野心に満ちた場所。そんな世界に身を置いて、早 years 年が経った。窓際の席に座り、外を見るのが好きだった。高層ビルから見下ろす景色は、小さな世界のような気もしたが、ビル風が吹き抜けるこの季節は、心が躍るような気持ちにさせてくれた。

美和子は、今も昔も変わらずに続く自分の習慣に、ふと笑みがこぼれた。大学卒業を機に、地元を離れ、この街で社会人生活が始まった。あれから月日は流れ、当時の知人はそれぞれ進む道に進み、散り散りになってしまった。当時、密かに想いを寄せていた人もいる。真面目な彼には、きっと気づかれてすらいないだろうな、自分の気持ちに。でも、それで良かった。美和子は素敵な恋を、成就させられなくて。

03_calm3-22b-RP-v2-Q6_K

「今日は仕事どうだった？」

「お疲れ様、今日も忙しかったよ」

「そうなんだ。でも、仕事終わりにこうして会えて良かった」

「うん、私も会えて嬉しいよ」

「ふふ、君の笑顔を見ると、疲れが吹き飛ぶよ」

「私も、あなたと一緒にいると、元気が出る」

「ありがとう、愛してるよ」

「私も愛してる」

（私たちの出会いから、もう5年が経つ。初めての出会いは、街のバーだった。偶然隣に座った私たちは、意気投合して、連絡先を交換し、頻繁に会うようになった。そして、付き合い始めて3年が過ぎた頃、彼からプロポーズされた。私たちは、幸せな結婚生活を送っている。）

「ねぇ、お腹空いてない？」

05_gemma-2-27b-it-Q5_K_M

## 忘れられない、あの夏の香り

30歳を目前に控えた夏。私は、いつものように仕事に追われ、プライベートはほぼゼロの状態だった。彼氏もいないし、趣味も特になく、週末は家で映画を見たり、本を読んだりするだけの繰り返し。

そんな平凡な日々を送っていたある日、会社の同僚、美咲から誘いを受けた。

「あかね、今度、私の実家の田舎に遊びに来ない？海が綺麗で、美味しい海鮮料理も食べられるのよ！」

美咲は、私より少し年上の明るく元気な女性だ。結婚して子供もいるが、仕事もバリバリこなすスーパーウーマン。私とは正反対のタイプだが、なぜか気が合う。

「田舎…うーん、ちょっと…」

私は、都会育ちで、自然に触れることにあまり興味がない。ましてや、一人旅なんてしたことがない。

「大丈夫よ！私の家族もいるし、きっと楽しいわよ！」

美咲の笑顔に負けて、私は渋々承諾した。

10_gpt4o

### **「雨音に包まれて」**

　会社を出ると、ポツポツと冷たい雨が降り始めていた。冬の終わりの雨は冷たく、春の訪れを予感させるにはまだ少し早い。

　「傘、忘れた……」

　つぶやきながら空を見上げたとき、肩にふわりと温かい気配が寄り添った。

　「ほら、使いなよ」

　差し出されたのは、黒いビニール傘。そして、それを差し出したのは、同じ部署の松岡だった。

　「え？でも……」

　「いいから。俺、そんなに濡れるの嫌じゃないし」

　そう言って、彼は半歩だけ距離を取って私の隣を歩き始めた。

　松岡とは、会社のプロジェクトで何度か一緒になったことがあるが、特別親しいわけではない。ただ、仕事ができて、冷静で、それでいてどこか不器用な人。そんな印象を持っていた。

　彼と相合傘で駅まで歩くなんて、考えたこともなかった。

補足：短評に代えて・Sonnet 3.5の評価コメント

各評価者は全部で79回評価していますが、その中から、各小説を網羅できるよう抜粋して掲載します。

00_aya-expanse-32b-Q6_K_L vs 01_c4ai-command-r-08-2024-Q4_K_M

■小説A：
・分析：
写真家と一般女性という異なる立場の二人が、写真という芸術を通じて絆を深めていく展開が特徴的です。主人公の成長が写真技術の向上と恋愛感情の深まりと共に描かれており、物語に厚みを持たせています。

・優れた点：

写真という具体的なモチーフを通じて二人の関係性の発展を描いている
海外での仕事という障害を乗り越える展開で二人の絆の強さを表現
主人公の内面的成長と恋愛の進展が自然に結びついている

・改善提案：

写真家としての拓海の葛藤や苦悩をもう少し描くと、キャラクターの立体感が増す
二人の関係がやや順調すぎるため、もう少し具体的な障害があると良い

■小説B：
・分析：
通勤電車での出会いから始まる王道的な恋愛展開。遠距離恋愛という試練を経て結ばれる展開で、読者の共感を誘う構成になっています。

・優れた点：

電車内での視線の交差など、細かい心理描写が丁寧
遠距離恋愛というリアルな障害を取り入れている
「起承転結」の明確な構成で読みやすい

・改善提案：

男性の性格や背景がやや希薄で、もう少し掘り下げが必要
ヒロインの内面的成長が見えにくい

■総合評価：
・優れている小説：A
・判断理由：写真という具体的なモチーフを通じて主人公の成長と恋愛の深まりを描いており、物語に説得力と厚みがあるため。また、キャラクター設定も具体的で、読者の印象に残りやすい構成となっています。

02_c4ai-command-r-v01-Q4_K_M vs 03_calm3-22b-RP-v2-Q6_K

■小説A：
・分析：会社での出会いから結婚に至るまでの過程が丁寧に描かれています。主人公の心情描写が細やかで、季節感や情景描写も効果的に使用されています。また、川原さんの人物像が具体的に描かれており、二人の関係性の進展に説得力があります。

・優れた点：

心理描写が繊細で現実感がある
季節感を効果的に活用した情景描写
人物像の立体的な描写
ストーリー展開に自然さがある

・改善提案：

クライマックスがやや唐突な印象
川原さんの視点からの描写もあると更に深みが出る

■小説B：
・分析：会話を中心に展開される物語で、現在進行形の一日の出来事と回想シーンで構成されています。台詞が多く、テンポの良さはありますが、描写が表面的で深みに欠ける印象です。

・優れた点：

会話のテンポが良い
読みやすい文体
二人の親密さが伝わる会話展開

・改善提案：

心理描写や情景描写を充実させる
キャラクターの個性をより明確に
物語にメリハリをつける

■総合評価：
・優れている小説：A
・判断理由：心理描写の深さと情景描写の豊かさが物語に説得力と奥行きを与えており、読者の感情移入を促す力が強い。また、人物像が立体的に描かれており、ストーリー展開にも自然さがある点で、より完成度の高い作品となっています。

04_CohereForAI-c4ai-command-r-plus-IQ2_XXS vs 05_gemma-2-27b-it-Q5_K_M

それぞれの小説を以下のように評価させていただきます。

■小説A：
・分析：
王道的な恋愛ストーリーで、桜という季節感のある題材を効果的に使用しています。主人公の心理描写を丁寧に行い、プロポーズまでの緊張感や不安、喜びを表現しています。

・優れた点：

桜というモチーフを、ストーリーの展開や心情表現に効果的に活用
主人公の不安と希望が交錯する心理描写が説得力がある
起承転結の構成が明確で読みやすい

・改善提案：

両親との対立の描写が唐突で浅い印象
登場人物の個性をより際立たせる描写があると良い
結末がやや型通りで予定調和的

■小説B：
・分析：
都会で働く女性の心の変化を、田舎での体験を通じて丁寧に描いています。自然描写と人間関係の温かみが調和し、心の成長物語として説得力があります。

・優れた点：

五感を使った豊かな描写で没入感が高い
主人公の内面の変化が説得力のある展開で描かれている
脇役の人物描写が生き生きとしている

・改善提案：

やや長めの描写が多く、メリハリをつけると良い
恋愛要素が薄く、ジャンルとしての期待値とのずれがある
後半部分の展開がやや単調

■総合評価：
・優れている小説：B
・判断理由：人物の心理描写の深さと情景描写の豊かさにおいて優れており、読者の感情移入を促す力が強い。また、主人公の変化が説得力のある形で描かれている点が決定的な差となっています。

06_Mistral-Small-24B-Instruct-2501-Q6_K_L vs 07_nitky-RoguePlanet-DeepSeek-R1-Qwen-32B-Q8_0

以下、ご指示に従って分析させていただきます。

■小説A：
・分析：
オーソドックスな職場恋愛を描いた王道ストーリー。季節感や心情描写が丁寧で、読者が感情移入しやすい展開となっている。ただし、展開が予測可能で意外性に欠ける。

・優れた点：

四季の移ろいと心情の変化を効果的に結びつけた描写
主人公の内面描写が丁寧で感情の機微が伝わってくる
職場恋愛という身近なテーマ設定

・改善提案：

展開の意外性や独自性が乏しい
障害（彼女の存在）の克服があまりにも容易
キャラクターの個性をより際立たせる工夫が必要

■小説B：
・分析：
三角関係に性的マイノリティの要素を含む現代的な恋愛小説。伏線や心理描写が巧みで、読者の予想を裏切る展開を実現している。

・優れた点：

複雑な人間関係を巧みに描写
現代的なテーマ設定と斬新な結末
伏線回収が効果的で読み応えがある

・改善提案：

結末が唐突で説得力にやや欠ける
登場人物の心理描写をより深める必要性
三人の関係性の背景説明が不足

■総合評価：
・優れている小説：B
・判断理由：
既存の恋愛小説の枠を超えた斬新な展開と現代的なテーマ設定により、読者に新鮮な驚きと深い考察を促す作品となっているため。物語構成の複雑さと読み応えの点で小説Aを上回っている。

08_phi-4-Q4_K_M vs 09_Qwen2-7B-Instruct_Q8_0

■小説A「月夜の約束」：
・分析：
四段構成（起承転結）で、物語の展開が明確です。出会い、関係の深まり、葛藤、そして決断という流れが読者に分かりやすく伝わります。また、「月」というモチーフを一貫して用いることで、象徴的な意味合いを持たせることに成功しています。

・優れた点：

具体的な情景描写により、読者が場面を想像しやすい
主人公の内面描写がバランス良く描かれている
仕事と恋愛の葛藤という現実的な問題設定

・改善提案：

健二の人物像をより深く描写することで、二人の関係性がより説得力を持つ可能性がある
エピローグは若干陳腐な印象を与える可能性がある

■小説B「春の恋」：
・分析：
編集者と作家という職業的な関係性から始まる恋愛を描いています。時間の経過とともに深まっていく関係性を、四季の移ろいと重ねて表現しています。

・優れた点：

編集者と作家という独特の設定が新鮮
時間の経過による関係の深まりが自然に描かれている

・改善提案：

同じような表現の繰り返しが多く、文章が冗長になっている
具体的なエピソードや会話が少なく、抽象的な描写が多い
後半部分の展開が単調で、緊張感に欠ける

■総合評価：
・優れている小説：A
・判断理由：具体的な描写と明確な物語構造により、読者の感情移入を促すストーリーテリングが実現できているため。また、現実的な葛藤とその解決過程が説得力を持って描かれています。

10_gpt4o vs 11_sonnet3_5

■小説A「雨音に包まれて」：
・分析：
職場での淡い恋の始まりを、雨傘を介した何気ない優しさから描いています。松岡の不器用な優しさと主人公の心の動きが、細かな仕草や会話を通じて自然に表現されています。

・優れた点：

雨傘という小道具を効果的に使い、二人の距離感の変化を象徴的に表現
松岡の性格（クール・不器用さ）が会話や仕草を通じて具体的に描写され、立体的
恋の予感という微妙な心情の変化を、細やかな描写で表現

・改善提案：

主人公の性格や特徴がやや希薄
職場での二人の関係性についての背景描写をもう少し厚くすると良い

■小説B「届かない想いは、春の風に乗って」：
・分析：
叶わぬ恋とその終わりを、桜という日本的なモチーフを用いて描いています。大人の恋愛ならではの切なさと諦観が印象的です。

・優れた点：

主人公の年齢や立場が明確で、リアリティがある
桜の描写と心情描写が効果的に重ねられている
大人の恋愛ならではの抑制の効いた描写

・改善提案：

田中との具体的なエピソードをもう少し描くと、感情の深まりがより伝わる
最後の場面での感情描写がやや説明的

■総合評価：
・優れている小説：A
・判断理由：
感情の機微や登場人物の心理変化が、説明的ではなく具体的な描写を通じて自然に表現されている点が秀逸です。また、雨傘という小道具を通じて二人の関係性の変化を巧みに描いている点も、物語の説得力を高めています。

12_ore vs 00_aya-expanse-32b-Q6_K_L

それぞれの小説を分析・評価させていただきます。

■小説A：
・分析：
職場の後輩との恋愛を描いた作品で、主人公のオタク趣味という設定とAIアシスタントを巧みに物語に組み込んでいます。現代的なテーマと従来の恋愛要素を融合させた構成となっています。

・優れた点：

主人公の内面描写が丁寧で、心理的な葛藤が説得力を持っています
AIアシスタントという現代的な要素を、単なる小道具ではなく物語の展開に効果的に活用しています
職場恋愛特有の距離感や立場の違いなどが巧みに描かれています

・改善提案：

AIアシスタントの「椿木君」の役割をもう少し物語の展開に絡ませることで、より深みのある展開が期待できたかもしれません

■小説B：
・分析：
王道的なラブストーリーで、運命的な出会いから始まり、試練を乗り越えて結ばれるまでを描いています。写真という趣味を通じた心の触れ合いがテーマとなっています。

・優れた点：

情景描写が丁寧で、読者の情感を誘う文章が印象的です
写真という共通の趣味を通じた二人の成長が上手く描かれています

・改善提案：

展開が王道的で予定調和な印象を受けます。もう少し意外性のある展開があっても良かったかもしれません
キャラクターの個性をより際立たせる工夫があると良かったと思います

■総合評価：
・優れている小説：A
・判断理由：現代的なテーマと従来の恋愛要素をうまく融合させ、かつ主人公の心理描写が説得力を持って描かれているため。またAIアシスタントという要素を効果的に活用し、独自性のある作品に仕上げている点が評価できます。

補足：生成された小説、全文

いいなと思ったら応援しよう！

②自分だけのAI作成　独り占め　ローカルLLMとは

14本

ログインまたは会員登録するとコメントできます。

ローカルLLMの小説生成能力を評価する：中規模モデル編

はじめに

評価手法の検討

評価の課題

提案手法

実験設計

評価対象・小説生成用ローカルLLM

評価用クラウドLLM

生成プロンプト

評価プロンプト

評価方法

実験結果

生成小説の文字数

各評価者の評価

考察

評価者について

各小説の評価と評価者との関係

生成小説の具体的評価

まとめ

優れているモデルは？

プロンプトについて

感想

補足：実験の詳細データ・生成された小説のサンプル

00_aya-expanse-32b-Q6_K_L

02_c4ai-command-r-v01-Q4_K_M

03_calm3-22b-RP-v2-Q6_K

05_gemma-2-27b-it-Q5_K_M

10_gpt4o

補足：短評に代えて・Sonnet 3.5の評価コメント

00_aya-expanse-32b-Q6_K_L vs 01_c4ai-command-r-08-2024-Q4_K_M

02_c4ai-command-r-v01-Q4_K_M vs 03_calm3-22b-RP-v2-Q6_K

04_CohereForAI-c4ai-command-r-plus-IQ2_XXS vs 05_gemma-2-27b-it-Q5_K_M

06_Mistral-Small-24B-Instruct-2501-Q6_K_L vs 07_nitky-RoguePlanet-DeepSeek-R1-Qwen-32B-Q8_0

08_phi-4-Q4_K_M vs 09_Qwen2-7B-Instruct_Q8_0

10_gpt4o vs 11_sonnet3_5

12_ore vs 00_aya-expanse-32b-Q6_K_L

補足：生成された小説、全文

いいなと思ったら応援しよう！

ピックアップされています

②自分だけのAI作成 独り占め ローカルLLMとは

コメント

【小説評価プロンプト】今の時代、小説を書くならChatGPTを使いこなせないとダメなわけよ④

物語のレイヤー数検証

文章スタイル総合分析レポート

生成AI｜書評｜私の作品紹介

はじめに:【GPTレビューシリーズ｜運用と設計概要】AI林真理子に自身の記事をレビューしてもらう

NotebookLM君！？

o3-proは開発失敗のポンコツなのか

【分析】デジタルMATSUMOTOの考察（2025/5/16）AIに食の話をさせるのはハラスメント？

整理：記事内ChatGPT疑似人格の比較軸

2024年後半から直近にかけてのLLM技術動向の主な点

[2025年6月]英文要約が得意なAIはどれだ？ChatGPT/Google Gemini/Claudeの8モデルを徹底比較

ChatGPTと読書2; 文系にRLHFを仕込む

日記～日々是私小説（2）

【生成AI #13】推敲はAIと“何度も読み直す”作業 ─ 編集者・読者・グラフ化の三段階アプローチ

【再掲】文章やキャラの味が長持ちするかテストするツール（無料ＧＰＴ版）

Google Colabで実際にLLMを作ってみた！Transformerアーキテクチャの実装から日本語文章生成まで

AIエージェントを半年で作れるようになるまで-1日目

三輪眞弘について生成AIに聞いてみた(9)：「虹機械」について・RAGの試作について（2025.3）

SakanaAIの「Text-to-LoRA」でAI適応が革命的に変化！テキスト記述のみで瞬間ファインチューニング

【RAG】Retrieval-Augmented Generation がビジネスを変える？— 基礎から最先端チューニング、そして未来 | Singular Radio #4

AIツール連携で実現する効率的な長編小説執筆ワークフロー

PCローカルで走る推論モデルPhy4-reasoning-plusに作家能力を求めるのは間違っているだろうか

【独り言】 AIと私（14）

#GPT #o3 リアルタイムレポート

ChatGPTよりも優れている点があると評価されている生成AI ５選

最新LLMをローカルで動かす（Qwen3, Gemma3,Sarashina, TinySwallow 他）

AIで小説を作るよWorkflowの2ファイル(gemini 2.5 pro作成）

ChatGPT に、目下執筆中の小説（英文）を読ませてみたら（2025/06/04）

【推論考察特化GPTs】読ませる・共感させる・行動させる！

生成AIパスポート試験 第2章生成AIモデルの復習、問題解説、GPTs紹介

Azure AI Foundryの評価指標の調査

AIと物語を描いて、見えてきた “正解” よりも大切なこと。

【はじめに】800文字チャレンジ｜レギュレーション

【やってみた】ChatGPTくんにエッセイを辛口レビューしてもらってみた

＃ビジネス・ショートショート「文字数の迷宮」

雨音のメロディー

②自分だけのAI作成　独り占め　ローカルLLMとは

【独り言】　AIと私（14）

ChatGPTよりも優れている点があると評価されている生成AI　５選

生成AIパスポート試験第2章生成AIモデルの復習、問題解説、GPTs紹介