見出し画像

Claude 3 Haiku は使わなかったが、Claude 3.5 Haiku はどうだろう。検証してみた

先日、Claude 3.5 Sonnet v2 (Amazon Bedrock) を使い、継続的にアイデア提案させる仕組みを作りました。

開発中は Claude 3 Haiku も候補に考えていたのですが、少し検証したところで「出力形式を守らない」という課題にあたったため断念していました。

そんな折、2024年11月に新たなモデルである Claude 3.5 Haiku が Amazon Bedrock でも利用可能となりました。

これを受け、以下2点を確認する目的で検証を行いましたので共有します。

・Claude 3 Haiku の出力形式破綻が Claude 3.5 Haiku で解消されているか
・Claude 3.5 Sonnet v2 から Claude 3.5 Haiku に置き換えられるか
 「知性」  vs 「速度 & コスト」 -->> 曖昧な「知性」部分の検証



検証するモデル

次のモデルを対象とします。簡単に相対評価も掲載しておきます。

Claude 3.5 Sonnet v2
 知性: ◎、速度: ○、費用: △、公開 2024/10/22〜
Claude 3.5 Haiku
 知性: ○、速度: ◎、費用: ○、公開 2024/10/22〜
Claude 3 Haiku
 知性: △、速度: ◎、費用: ◎、公開 2024/03/07〜

画像
詳しくは公式ドキュメントをご参照ください
https://docs.anthropic.com/ja/docs/about-claude/models


前置き

  • 「適合性, 多様さ, 独創性, 具体性の観点でスコアリングして定量的に…」などと言いたいところですが、ちょっとした個人開発でそこまでやるのは面倒なのでざくっと定性的に評価します。

  • Amazon Bedrock を用います。具体的な設定値は次の通りで、以降、Sonnet, Haiku 3.5, Haiku 3 と呼称します。

# Amazon Bedrock
Sonnet  : modelId=anthropic.claude-3-5-sonnet-20241022-v2:0
Haiku3.5: modelId=anthropic.claude-3-5-haiku-20241022-v1:0
Haiku3  : modelId=anthropic.claude-3-haiku-20240307-v1:0

# いずれも Randomness and diversity は default値
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-anthropic-claude-text-completion.html
temperature: 1, top_p: 0999, top_k: 250

それでは、検証結果を見ていきます。

…今回も長くなったため、結論だけ知りたい方は「まとめ」へどうぞ。



検証1. しっかり構造化されたプロンプト

まず、時間をかけてプロンプトの質を高めれば、期待通りの出力が得られるのか?を見ていきたいと思います。

次のプロンプトは「XMLタグ推奨」の公式案内に従い、明確な構造化を試みたものです。これで期待通りの出力ができるでしょうか。

<task>
SNSに関係する人間の活動リストの生成
</task>

<requirements>
- 一般名詞および助詞を組み合わせて具体的に表現すること
- 30個の活動を列挙すること
- 活動は主語を含まない形で記述すること
</requirements>

<good_examples>
良い例、具体的である
- 自撮り写真の編集
- 資格試験の受験者の監視
- 学校の保護者への連絡
- 企画立案時のプレゼンテーション
- フリーマーケットサイトへの出品
- 旅行先で予約したホテルでのチェックイン
- SNSで人気の記事へのコメント
- 建設工事現場に必要な工具の持ち出し
- 不要となった機密書類の破棄
- リラックスタイムにコーヒーを飲む
</good_examples>

<bad_examples>
悪い例、具体的でない
- 写真編集
- 広告出稿
- 点検作業
- 情報拡散
- 受験者監視
</bad_examples>

<output_format>
- 半角カンマ区切り
- スペースなし
- 活動リストのみを出力
</output_format>

<example_output>
活動1,活動2,活動3,...,活動30
</example_output>

次に結果です。それぞれ5回実施しました。


Sonnet

特に問題は見られず、期待通りです。

プロフィール写真の更新,投稿内容の文章校正,ハッシュタグの選定作業,フォロワーとのメッセージ交換,投稿画像へのフィルター適用,インフルエンサーへの商品提供依頼,SNSアカウントの新規開設,人気投稿へのいいね操作,ストーリー機能での日常共有,友人のSNS投稿へのコメント,オンラインショップの商品紹介,イベント情報の事前告知,ライブ配信の事前準備,フォロワー数の分析作業,投稿の公開範囲設定,アカウントのセキュリティ確認,動画コンテンツの編集作業,コミュニティグループの運営管理,企業アカウントの返信対応,投稿スケジュールの作成,キャンペーン企画の立案,SNS広告の予算設定,アンケート機能での意見収集,バズった投稿の分析作業,不適切コメントの報告処理,ターゲット層の設定作業,投稿効果の測定分析,ブランドイメージの発信管理,インサイト情報の確認作業,競合アカウントの情報収集

フォロワー数の確認と分析,投稿内容の文章校正,ハッシュタグの効果測定,写真加工アプリでの編集作業,ストーリー機能への短編動画投稿,人気投稿へのいいね付与,フォロワーからのDMへの返信,コメント欄でのファン交流,投稿スケジュールの作成と管理,広告コンテンツの企画立案,インフルエンサーへの商品提供依頼,SNSキャンペーンの実施計画,アカウントプロフィールの更新,投稿の公開範囲設定,ライブ配信の事前告知,視聴者とのリアルタイム対話,投稿データの分析レポート作成,競合アカウントの情報収集,炎上対策マニュアルの整備,コミュニティガイドラインの確認,アンケート機能での市場調査,投稿の予約配信設定,フォロワー獲得施策の立案,リツイートによる情報拡散,ブランドメッセージの発信,コラボ企画の提案と交渉,投稿のアーカイブ管理,広告予算の配分計画,エンゲージメント率の測定,緊急時の情報発信対応

プロフィール写真の撮影,投稿文章の下書き保存,ハッシュタグの検索,フォロワー数の確認,友達リストの整理,タイムラインの更新,ストーリーへの返信,ライブ配信の予約,お気に入り投稿の保存,コメント欄での議論,グループチャットの作成,位置情報の共有,思い出写真のアーカイブ,プライバシー設定の変更,投稿の非公開設定,画像フィルターの適用,広告配信の設定,イベント情報の共有,誕生日通知の確認,メッセージの既読確認,投稿スケジュールの調整,トレンドワードの確認,アカウントの二段階認証,投稿内容の報告,フォロー中アカウントの整理,投稿のシェア設定,通知設定の調整,プロフィール情報の更新,投稿の保存場所の選択,アカウントの切り替え

SNSでの写真共有とコメント,友人のプロフィール閲覧,ストーリー動画の撮影,投稿内容のハッシュタグ付け,インフルエンサーのライブ配信視聴,SNSマーケティングの分析,フォロワー数の確認,投稿のスケジュール管理,ライブ配信の告知文作成,投稿写真の加工編集,友人の投稿へのいいね,ダイレクトメッセージの返信,おすすめアカウントの確認,トレンドトピックの調査,投稿内容の下書き保存,プロフィール画像の更新,アカウント設定の変更,SNSグループの管理,投稿の位置情報設定,投稿のシェア履歴確認,非公開アカウントの申請承認,投稿コンテンツの保存,タグ付け投稿の確認,広告コンテンツの視聴,投稿の公開範囲設定,ブロックユーザーの管理,スパムアカウントの報告,投稿の通知設定変更,リール動画の作成編集,ストーリーハイライトの整理

SNSへの写真投稿,プロフィール画像の更新,ハッシュタグの付与,フォロワーへの返信,投稿内容の下書き保存,ストーリーズの編集,インフルエンサーの投稿のシェア,友達の投稿へのいいね,SNSグループへの参加申請,イベント情報の共有,動画コンテンツの配信,ライブ配信の予約設定,投稿の非公開設定,コメント欄でのディスカッション,位置情報の追加,広告付きポストの作成,アンケートの実施,フォロワー数の確認,ブロックリストの管理,DMでの商品問い合わせ,投稿の保存機能の利用,ハイライト機能での記録,投稿の予約配信,タグ付けによる友達の紹介,投稿の閲覧制限設定,SNSでのショッピング,投稿のアーカイブ化,リールズの撮影編集,ストーリーズへの投票機能の利用,デジタルスタンプの活用


Haiku 3.5

前述のように「明確に出力形式を指定している」にも関わらず、形式を守らない出力が5回中2回見られました。内容そのものは悪くないのですが…

SNSに関係する人間の活動リストを生成しました:
自撮り写真の編集,友人との近況共有,インフルエンサーによる商品レビュー,旅行先での思い出投稿,フォロワーへのライブ配信,プライベートメッセージの交換,ハッシュタグキャンペーンへの参加,アカウントの相互フォロー,イベント告知の拡散,コメント欄での意見交換,ストーリーズへの動画アップロード,プロフィール画像の変更,企業アカウントへの問い合わせ,知人の投稿へのリアクション,オンラインチャレンジへの挑戦,アカウント認証の申請,広告コンテンツの作成,趣味コミュニティへの参加,匿名アカウントでの情報共有,アーカイブ写真の整理,海外の友人とのビデオ通話,アプリ内での位置情報共有,新商品発売情報のチェック,アカウントセキュリティの設定,ライブ配信中のギフト送付,ストーカー行為の報告,迷惑ユーザーのブロック,アカウント乗っ取り防止,フォローリストの整理,アプリ内課金コンテンツの購入

自撮り写真のフィルター選択,趣味の食事写真の投稿,友人との近況共有,旅行先での風景画像のアップロード,インフルエンサーによる商品レビュー,オンラインイベントへの参加,動画コンテンツの視聴,フォローしているアカウントの情報チェック,プライベートメッセージの送信,ハッシュタグ検索,コミュニティグループでの意見交換,アーティストの最新情報収集,匿名アカウントでのコメント,ライブ配信の視聴,アカウントのプライバシー設定変更,フォロワー数の確認,リプライでの会話,トレンド情報の収集,企業アカウントへの問い合わせ,友人の誕生日祝福,イベントへの参加申し込み,知人の結婚報告の拝見,アルバム作成,ダイレクトメッセージでのやりとり,ストーリーズへの反応,位置情報の共有,プロフィール画像の更新,フォローリクエストの承認,広告コンテンツへの反応,動画へのリアクション

自撮り写真の加工,フォロワーへのダイレクトメッセージ,友人との位置情報共有,オンラインでの美容レビュー投稿,インフルエンサーとのコラボ企画,プライベート動画の配信,趣味のコミュニティへの参加,旅行先での景色の瞬間共有,飲食店でのグルメ写真投稿,アーティストのライブ配信視聴,ファッションコーディネートの公開,家族との記念日投稿,読書感想の共有,プロフィール画像の更新,アカウントの乗っ取り対策,政治的意見の表明,ゲーム実況の配信,アフィリエイト広告の掲載,海外の友人とのビデオ通話,イベント参加の告知,学習progress記録,クラウドファンディングへの参加,芸能人への応援メッセージ,育児日記の更新,ペットの成長記録,美容整形の体験談,就職活動の報告,地域情報の拡散,専門分野のナレッジ共有,アンケート調査への回答

自撮り写真の加工,友人との近況共有,インフルエンサーへのいいね,ゲーム実況の配信,旅行の思い出投稿,家族とのビデオ通話,趣味のコミュニティへの参加,料理レシピの検索,アーティストのライブ配信視聴,就職活動の情報収集,お気に入りブランドのフォロー,バーチャル展示会への参加,海外在住の知人との連絡,おすすめコンテンツの共有,アンケートへの回答,商品レビューの閲覧,プライベートグループでの意見交換,新製品の情報チェック,イベント告知の確認,政治的メッセージへの反応,ビジネスネットワーキング,学習コミュニティへの参加,育児related情報の交換,スポーツチームの応援,アーティスト活動のサポート,映画鑑賞後の感想共有,飲食店のクチコミ参照,教育関連の情報収集,地域コミュニティへの参画,国際交流イベントへの参加

SNSに関する人間の活動リストを生成しました:
インスタグラムでのフォロワーへの近況報告,Twitterでトレンドハッシュタグへの参加,Facebookでの友人との写真共有,YouTubeでの旅行動画投稿,TikTokでのダンス動画撮影,インスタグラムストーリーズでの日常シーン記録,Twitterでの政治的意見表明,LINEでの友人グループへのメッセージ送信,YouTubeライブでのゲーム実況,Instagramリールでのトレンド動画模倣,SNSでの美容メイク技術の紹介,Twitter上でのニュースへのコメント,Facebookでのイベント参加呼びかけ,YouTubeでの料理レシピ動画作成,TikTokでのチャレンジ企画参加,インスタグラムでのフォトコンテスト応募,Twitterでの企業サポート対応,LINEスタンプの送信,YouTubeでの旅行レビュー動画制作,Facebookマーケットプレイスでの商品販売,TikTokでのコラボレーション企画,インスタグラムでのプロダクト広告,Twitterでの株式投資情報交換,LINEでのオンラインミーティング,YouTubeでの学習コンテンツ配信,Facebookグループでのディスカッション,TikTokでのクリエイター活動,インスタグラムでのプライベートストーリーズ共有,Twitterでの音楽アーティスト応援,LINEでの家族間コミュニケーション
<output_format>
- 半角カンマ区切り
- スペースなし
- 活動リストのみを出力
</output_format>

<example_output>
活動1,活動2,活動3,...,活動30
</example_output>

↑のように指示しているため、↓の文言は不要です。

SNSに関係する人間の活動リストを生成しました:

残念ながら、Claude 3 Haiku に見られた「出力形式を守らない」課題は、Claude 3.5 Haiku でも引き続き発生するという結果になってしまいました。


Haiku 3

こちらは更に問題のある結果になりました。

SNSに関係する人間の活動リストは以下の通りです。
自撮り写真の編集,資格試験の受験者の監視,学校の保護者への連絡,企画立案時のプレゼンテーション,フリーマーケットサイトへの出品,旅行先で予約したホテルでのチェックイン,SNSで人気の記事へのコメント,建設工事現場に必要な工具の持ち出し,不要となった機密書類の破棄,リラックスタイムにコーヒーを飲む,SNSでの投稿の作成,新製品の宣伝動画の撮影,趣味の写真の共有,地域コミュニティへの投稿,専門家の意見の収集,イベント告知の拡散,競合他社の分析,人気インフルエンサーとのコラボ,リアルタイムでの反応の確認,Webサイトの更新,オンラインカウンセリングの予約,離れた家族への動画通話,ファンクラブへの登録,SNSアカウントの作成と管理,製品の口コミの収集,インターネット上での評判の確認,新規顧客の開拓,地域情報の共有,オンラインショッピング,リモートワーカーとのコミュニケーション

SNSに関連する人間の活動リストは以下の通りです:
自撮り写真のアップロード,フォロワーに向けた近況報告の投稿,SNSで話題のトピックにコメントする,SNSの友人リストを整理する,SNSネタの収集と共有,SNSを介したオンラインコミュニティへの参加,趣味に関連したグループでの情報交換,SNSで人気のあるインフルエンサーのフォロー,SNSで知人とのコミュニケーションを取る,SNSの利用規約の確認と遵守,SNSアカウントの管理と更新,SNSでの自己表現と情報発信,SNSでのクーポンやキャンペーンの利用,SNSを使ったマーケティング活動の実施,SNSを通じた商品の広告と販売,SNSでの企業ブランディングの推進,SNSアカウントのセキュリティ設定の確認,SNSの利用を目的とした新しい端末の購入,SNSでの友人探しと新たなつながりの構築,SNSの利用履歴の確認と活用,SNSを活用した顧客サポートの提供,SNSを利用した従業員のモチベーション向上,SNSを利用したイベントの告知と参加者募集,SNSでのトレンド分析と新しい施策の検討,SNSを通じた地域コミュニティとのつながり,SNSを利用した広報活動と情報発信,SNSでのクチコミ情報の収集と分析,SNSで拡散された情報の信頼性の確認,SNSを活用したリクルーティング活動の実施,SNSを介したビジネスパートナーとの連絡調整,SNSでの自社製品の紹介とカスタマーサポート

SNSに関係する人間の活動リストは以下の通りです。
自撮り写真の編集,SNSへのアカウントの登録,オンラインワークショップの参加,掲示板への書き込み,フリーマーケットサイトへの出品,オンラインストアでのショッピング,旅行先で予約したホテルでのチェックイン,オンラインミーティングへの参加,SNSで人気の記事へのコメント,YouTubeチャンネルの動画視聴,オフラインイベントのオンライン告知,友人への写真共有,企画立案時のプレゼンテーション,プロモーション動画の制作,リラックスタイムにコーヒーを飲む,学校の保護者への連絡,オンラインアンケートの回答,オンラインギフトの贈与,不要となった機密書類の破棄,SNSフォロワーの数の確認,共有された企業情報の閲覧,建設工事現場に必要な工具の持ち出し,オンラインマーケティング活動の実施,オンラインサポートチャットでの問い合わせ,資格試験の受験者の監視,オンラインデータ分析ツールの使用,オンラインビジネスマッチングサイトでの登録,オンラインコミュニティでの議論への参加,オンラインストアの運営,オンライン広告の配信

SNSへの投稿,SNSでの友人リクエスト受理,SNSでのライブ配信,SNSでの人気投票への参加,SNSでのコメント返信,SNSでの悪質投稿の通報,SNSでの不適切な投稿の削除,SNSでのアカウントの設定変更,SNSでの人気動画の視聴,SNSでのフォロワーの獲得,SNSでのキャンペーン参加,SNSでの広告の視聴,SNSでの趣味関連投稿,SNSでのフォロワー分析,SNSでの人気トピックの検索,SNSでのイベント告知,SNSでの口コミ情報の収集,SNSでのサービス予約,SNSでの会員登録,SNSでのユーザーランキング閲覧,SNSでのチャレンジへの参加,SNSでの効果的ハッシュタグの設定,SNSでの無料クーポンのダウンロード,SNSでの人気アカウントのフォロー,SNSでの過去投稿の振り返り,SNSでのリアクション機能の使用,SNSでの自動投稿設定,SNSでのリンクシェア,SNSでの写真加工,SNSでのアンケートの回答,SNSでのアフィリエイト広告の掲載

SNSに関係する人間の活動リスト:
自撮り写真の編集,資格試験の受験者の監視,学校の保護者への連絡,企画立案時のプレゼンテーション,フリーマーケットサイトへの出品,旅行先で予約したホテルでのチェックイン,SNSで人気の記事へのコメント,建設工事現場に必要な工具の持ち出し,不要となった機密書類の破棄,リラックスタイムにコーヒーを飲む,SNSへの投稿記事の校正,オンラインイベントの司会進行,ファン交流の為のアンケート実施,ブログサイトのレイアウト修正,地域のイベント情報の収集,友人の誕生日プレゼントの検討,新製品のSNSでの試用レビュー,ライブ配信のための機材設定,SNSでのキャンペーン企画,アカウントの設定変更やトラブル対応,SNSで人気の写真画像の加工,公式アカウントのフォロワー数分析,SNSを活用した見込み客の発掘,オンラインショップの運営管理,SNSでの新商品の告知,オンラインサロンの会員募集,SNSを活用したリモート会議の開催,SNSでの話題性のある投稿の企画,ランキングサイトへの登録,SNSアカウントのフォロー・フォロー解除

次の3つの問題が見受けられます。

・Haiku 3.5 同様、出力形式を守らない [1,2,3,5番め]
・few-shotとして与えた「良い例」をそのまま出力している [1,5番め]
・全ての結果に「SNS」という冗長なprefixがついている [4番め]



検証2. ゆるいプロンプト

次に、ざっと作ったプロンプトでも、こちらの意図を汲み取った出力ができるのか?を見ていきたいと思います。

次のプロンプトでは、公式推奨のXML形式をやめ、更に「SNSに関係するもの」という重要な指示を敢えて分かりにくくしてみました。

一般名詞の組み合わせで、"人間が行う活動"30個上げてください。 

## その他の制約
- SNSに関係するもの
- "人間が行う活動"のイメージ(これらは結果に含めないでください)
  - 自撮り写真の編集
  - 資格試験の受験者の監視
  - 学校の保護者への連絡
  - 企画立案時のプレゼンテーション
  - フリーマーケットサイトへの出品
  - 旅行先で予約したホテルでのチェックイン
  - SNSで人気の記事へのコメント
  - 建設工事現場に必要な工具の持ち出し
  - 不要となった機密書類の破棄
  - リラックスタイムにコーヒーを飲む

## 出力形式
半角のカンマ区切り,スペース不要,30個の"人間が行う活動"のみを出力してください。

では結果を見ていきます。それぞれ5回実施しました。


Sonnet

出力の質は下がりましたが、「SNSに関係するもの」の指示は守れています。

動画配信,写真投稿,プロフィール編集,友達追加,メッセージ送信,ライブ配信,グループ作成,ニュース共有,ハッシュタグ作成,記事保存,イベント告知,画像加工,アカウント認証,フォロワー管理,コミュニティ参加,リツイート操作,スレッド作成,投稿予約,アンケート回答,ストーリー更新,位置情報共有,リアクション選択,プライバシー設定,ブロック設定,通知確認,タイムライン閲覧,検索履歴削除,プレイリスト作成,広告設定,バックアップ保存

画像投稿,動画配信,記事シェア,友達追加,コメント返信,プロフィール更新,ハッシュタグ付与,いいね操作,フォロワー確認,メッセージ送信,ライブ配信,ストーリー投稿,位置情報共有,リツイート操作,投稿保存,通知確認,グループ作成,メンション送信,投稿削除,アカウント切替,タグ付け操作,DMやり取り,アンケート作成,プライバシー設定,投稿検索,トレンド確認,リスト作成,ブロック設定,投稿予約,広告閲覧

フォロワー獲得作業,写真加工編集,動画撮影準備,ハッシュタグ検索,コンテンツ企画立案,ライブ配信設定,視聴者数分析,アカウント管理作業,投稿文章作成,画像素材収集,インフルエンサー調査,広告出稿管理,メッセージ返信作業,アンケート集計,スケジュール調整,イベント告知投稿,キャンペーン実施,データ分析作業,効果測定作業,タイムライン更新,エンゲージメント計測,リツイート管理,プロフィール編集,コメント承認作業,フォロー整理,トレンド確認,ストーリー投稿,リール作成作業,シェア数確認,バズワード収集

投稿写真加工,ハッシュタグ作成,フォロワー管理,ストーリー更新,動画編集作業,プロフィール設定,メッセージ返信,アカウント切替,投稿文作成,画像選別作業,コメント確認,友達検索操作,位置情報追加,タグ付け作業,広告設定変更,投稿時間調整,通知確認作業,DM送信操作,アンケート作成,ライブ配信準備,視聴者数確認,インサイト分析,シェア依頼文,リポスト作業,アーカイブ整理,グループ作成,投稿予約設定,トレンド確認,フィード更新,機能制限設定

投稿確認作業,記事読み込み作業,動画視聴活動,写真共有行為,情報拡散作業,会話返信作業,広告閲覧行為,検索実行作業,友人追加作業,通知確認作業,位置情報共有,履歴削除操作,設定変更作業,画像編集作業,動画保存作業,メッセージ送信,ストーリー投稿,ライブ配信作業,ハッシュタグ付与,アカウント管理,プロフィール更新,グループ作成作業,リスト整理作業,フォロワー確認,投稿予約設定,タグ付け作業,音声投稿作業,動画編集作業,引用共有作業,コンテンツ報告


Haiku 3.5

めちゃくちゃな出力になりました。「SNSに関係するもの」という指示は全く考慮されていません。更に「一般名詞の組み合わせ」という指示も怪しく、1単語のみの出力も多く見られます。

農作業,大工仕事,料理,清掃,洗濯,掃除,園芸,裁縫,絵画,音楽演奏,スポーツ,運転,書道,釣り,狩猟,登山,キャンプ,読書,瞑想,ダンス,演劇,カラオケ,子育て,介護,医療行為,教育,研究,議論,交渉,買い物

料理,掃除,買い物,運転,学習,スポーツ,gardening,演奏,絵画,写真撮影,読書,瞑想,ハイキング,釣り,ジョギング,キャンプ,ダンス,カラオケ,DIY,園芸,手紙を書く,料理,準,ビジ,ネゴシエーション イション議,旅行,ボランティア,瞑想,アート制作,修理,手

料理,掃除,買い物,運転,勉強,学習,議論,会話,手紙を書く,絵を描く,音楽を演奏する,植物の世話,ペットの世話,スポーツ,旅行,演劇,瞑想,祈り,建築,修理,農業,漁業,教育,研究,芸術制作,整理整頓,救助活動,清掃活動,瞑想,美容

食事の準備,車の運転,本の読書,音楽の演奏,絵の描画,庭の手入れ,家の掃除,服のアイロンがけ,料理の盛り付け,買い物,映画の鑑賞,スポーツの練習,植物の水やり,靴の修理,子供の遊び,楽器の練習,手紙の執筆,写真の撮影,ダンスの練習,本の整理,道具の修理,家具の移動,髪の手入れ,卓球の練習,靴下の繕い,農作業,魚釣り,歯磨き,パンの製造,道の清掃

耕作,料理,洗濯,掃除,園芸,運動,読書,勉強,作曲,絵画,彫刻,瞑想,演奏,建築,彫金,裁縫,木工,編み物,研究,教育,医療,清掃,介護,救助,整備,修理,芸術,音楽,ダンス,演劇


Haiku 3

Haiku 3.5 と同等、めちゃくちゃな出力です。

料理の調理,論文の執筆,新聞の配達,絵画の創作,楽器の演奏,裁判の開廷,消防活動の実施,プレゼンテーションの実施,診察の実施,舞台芸術の上演,機械の修理,医療サービスの提供,教育活動の実施,スポーツの競技,宗教活動の実施,映画撮影の実施,デザイン制作の実施,調査研究の実施,介護サービスの提供,芸術パフォーマンスの実施,観光ガイドの実施,建設工事の実施,警備活動の実施,遊技サービスの提供,探索活動の実施,販売活動の実施,広告宣伝の実施,清掃活動の実施,農業生産の実施,衛生管理の実施

執筆,料理,運転,学習,歌唱,投資,演説,商談,交渉,掃除,設計,撮影,演技,介護,救助,調査,交渉,接客,販売,相談,制作,計算,分析,説明,指導,鑑賞,翻訳,実験,観察,傾聴

仕事の企画,楽器の演奏,部屋の掃除,絵画の創作,ケーキの焼成,文学作品の執筆,ジョギングの実践,家族への手作りの贈り物,趣味の活動動画の投稿,映画鑑賞,新しい技術の習得,庭の手入れ,子供の教育,ボランティア活動,旅行計画の立案,調理の実践,運動会への参加,日記の執筆,園芸の実践,料理教室の参加,パン作りの実践,ダンスの練習,本の執筆,園芸の実践,資格取得の勉強,展示会への出展,スポーツ大会への参加,手工芸の制作,楽器の練習,本の朗読

書道,絵画制作,楽器演奏,演劇公演,パン作り,木工工芸,ボランティア活動,スポーツ選手として競技,探検活動,楽曲作成,講演活動,ダンス発表会,祭り参加,園芸活動,卓球大会出場,文書校正,翻訳作業,投資顧問,歴史研究,環境保護活動,科学実験,料理教室,家庭教師,個展開催,ビジネスコンサルティング,プログラミング,投資運用,詩作,キャンプ

料理,読書,歌唱,絵画,散歩,ジョギング,楽器演奏,料理教室,英会話レッスン,ボランティア活動,資格取得,映画鑑賞,釣り,園芸,ダイビング,ヨガ,瞑想,登山,音楽制作,執筆活動,プログラミング,投資,起業,料理教室講師,スポーツ観戦,趣味収集,ウェブサイト制作,旅行計画,園芸教室,メーキング

ちなみに、XML形式のプロンプトに比べ、出力形式が守られたのは興味深いです(考えることが減ったから?)
謎ですが、今回はそこまで突き詰めません。



検証3. 実際の出力を見てみる

最後に、少しの期待を込めて Claude 3.5 Haiku で3回出力してみます。
(普段は Claude 3.5 Sonnet v2 を使っています。普段の出力はこちら

Haiku 3.5

うーん…バイアスかもしれませんが、「なるほど」も無く安直に感じます。
レアリティは全て「N」としました。

画像



まとめ

Claude 3.5 Haiku どうだった?

  • ざっと作ったプロンプトでも Sonnet は意図を汲み取ってくれたが、Haiku はズレた出力をした

  • しっかり構造化したプロンプトだと、Sonnet ⇔ Haiku に大差は無かった

    • しかし、Haiku のみ「明確に指定したはずの出力形式を守らない」という問題が見られた


Claude 3.5 Sonnet v2 から 3.5 Haiku に置き換える?

私は置き換えない判断をしました。

なぜなら、「適切な出力をさせるのに手間がかかりすぎる」からです。

画像
カネ と 労力 の天秤


今回ネックとなった「Haiku は出力形式を守らない」で言えば、次のようなプロンプト改善により解決できるかもしれません。

・出力形式を絶対守るよう強調する
・ステップを2回に分け、出力形式をセルフチェックさせる
・もしかすると英語で指示すれば…と期待を込めて検証する
など

しかし、コーディングのようにシロクロはっきりした結果が得られるわけではなく、検証を重ねる中で更に他の問題も出てくるかもしれません。どこまでいっても「もぐらたたき感」が強いな…と。

ということで、少々高くても Sonnet 使います。


おわりに

今回の個人開発では Haiku を使わない判断をしましたが、「速度・コストへの要求が厳しい場合」は Haiku も検討します。但し、次の点には留意すると思います。

  • 初期フェーズが重くなる

    • トライ&エラーによるプロンプトの作り込みが必要なため

      • 今回のように「期待結果を示しやすいタスク」であれば、高性能なLLMに評価・プロンプト調整を任せることでマシになるかもしれません。(所謂LLM-as-a-Judgeです。継続改善するような開発なら良いですが、それでも仕組みを作る「初期の重さ」は拭えず)

  • 「本当に有効な選択肢か?」さっさとフィジビリティを確認する

    • そもそも「期待結果の安定出力」に辿り着けない可能性があります


以上です。それではまた。

いいなと思ったら応援しよう!

コメント

ログイン または 会員登録 するとコメントできます。
あなたも書ける! 会員登録はこちら
Claude 3 Haiku は使わなかったが、Claude 3.5 Haiku はどうだろう。検証してみた|ポゥシュウ
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1