【都知事選2024】AIによるマニフェストへの質疑応答システム「AIあんの」の裏側を公開します！

2024年6月28日 08:20

安野たかひろ事務所技術チームリーダーの伊藤です。

安野は大学時代の友人で、彼が今回の選挙戦で実現しようとしている、老若男女の意見を募り、誰も取り残さないことを旨とする選挙活動・民主主義の形に共感し、ぜひ力になりたいと思いPdM・エンジニアとして手伝いをしております！

この記事では、先日公開になった「AIあんの」のシステムについて、技術者の観点から、実現しようとしている状態と、技術的な裏側について解説してみようと思います。

AIあんのとは

AIあんのは、安野たかひろの政策を学習したAI応答システムが、本人のアバターと声色によって、Youtube Liveと電話という2つの経路で、みなさまのご意見やご質問に回答するシステムです。

配信でAIあんのに質問したい場合は、以下からアクセスしてみてください。
（URLは変更になる場合があります。その際はアカウントから配信を探してみてください。）

また電話でAIあんのと話してみたい方は 050-1720-9295 まで電話をかけてみてください。

使っていただいた方からの反響

大変ありがたいことに、公開後5日で6000回以上のご意見・ご質問をいただくことができ、概ねポジティブな反響をいただいております。

AIあんのが実現しようとしている世界とその成果

AIあんのは、以下の2点を実現することを目標に制作されました。

安野たかひろが掲げるマニフェストや実行手法を、対話的な形で体感できる場を設けることで、彼の政策や手法に対する期待感・効力感を感じていただく
アクセスしやすい形で安野たかひろに対しての意見を発言できる場を用意することで、質的・量的両面で直接リーチが難しい方からの意見を頂戴する。いただいた意見は我々の政策意思決定に反映する。

もちろんまだ課題も多いですが、6000件以上の質問・ご意見をいただくなど、通常の物理的な選挙活動だけでは実現しえなかったコミュニケーションが実現できているのではないかと考えています。

また、詳細は別の記事で触れられればと思いますが、いただいた意見についてはブロードリスニングという仕組みで分析され、結果が政策チームにも共有されるループが回り始めており、徐々に目指した姿に近づいていると思います。

AIあんのの裏側

ここからは、このようなAIあんののシステム（とくにYouTube Live側）がどのように動いているのかを簡単に説明していければと思います。

全体像(YouTube Live)

AIあんののシステム全体像は、下記のようになります。

環境としては、Unityによるレンダリングなどを中心に行うWindows環境と、各種外部APIとの連携やデータ保存を行うAzure環境の2つによって構成されています。

以下、主要な処理についてかいつまんで説明していきます。

Windows環境

Youtubeコメントを取得するためのミドルウェアとして、「わんコメ」を利用させていただいております。
レンダリングにはUnityを利用しています。3DモデルはVRMを利用しています。（なお、VRMは公開もされているので良識の範囲でご活用いただくことも可能です）
配信にはOBSを利用しています。システムが止まってしまった際の停止画面などもこちらで事前に準備しています。

返答生成システム

返答生成は、以下のような流れで実現されています。

事前準備

安野たかひろの政策マニフェストについて、政策チームと協力しGoogle Docsに箇条書きテキスト（A4 30ページ程度）でまとめ、テキストファイルとして同期することでRAGの検索対象にしています。
また、公開しているマニフェスト資料のPDFを画像にしたうえで、検索対象ドキュメントのどの部分が、スライドのどの画像に該当するかを紐づけています。
プロンプトに、安野たかひろ自身の喋り方や考え方を記載しておくことで、自然で礼儀正しい対応をできるようにしています。

実際の処理の流れ
リクエストが来た際は、以下のような流れで返答を生成しています。

頂いたコメントに関係している部分の候補を、マニフェストの箇条書きテキストからRAG(faiss）でいくつか取得
関連部分をChatGPTに投げ、関連度が高いものに並び替え&フィルター
もっとも関連が強い部分に紐づく画像を1枚選択
最も関連が強い部分をプロンプトに含め、ChatGPTで回答を生成
ハルシネーション対策で、関連する部分と生成された回答に矛盾がないかを確認し、問題なければ返答

ポイントとしては、本人の政策を自動生成で喋らせる以上、本人の考えと異なることを発言するのはなるべく避けたいので、ChatGPTでダブルチェックなどを行い、有効回答の生成率が多少下がることを許容し安全側に倒しています。

（そのうえで、本人の考えとは異なることを喋る可能性がゼロではないことはご理解いただいたうえでご利用ください）

音声合成システム

音声合成については、以下の2つのAPIを、異なる目的で利用しています。

Azure音声読み上げ（TTS: 自然な音声の生成）
ElevenLabs（STS: 本人の声色への変換）

検証時にはStyle-Bert-VITS2が最もクオリティが高かったのですが、利用規約上政治利用がNGであったため、このような構成に変更しました。

抑揚についてはAzureのほうが自然であったためAzureを使い、ElevenLabsでは、安野たかひろ本人の音声を収録したデータをもとに、より本人に近い声色に変換しています。

補足: 電話AIあんのについて

電話AIあんのは、回答生成と音声合成の一部分をYoutube Liveと共有したうえで、Vocodeを利用して運用しています。

まとめ

以上、AIあんのの裏側（技術的な全体像）についてまとめてみました。

今回は全体像ということで大まかな概要にとどめましたが、RAG・音声合成・オペレーションそれぞれの領域を深堀りすれば、まだまだ数え切れない工夫・苦労があるので、反響がよければそのあたりも書いていきたいと思います！

本物の選挙の立候補者がAIによる応答システムを構築している事例は、調べた限り日本初となります。

公開から5日間で6000件以上の質問を受け付けているという事実は、たとえば通常の講演会などでは2時間で数十問程度しか質問をお受けできないと仮定すると、たった5日間で従来の講演会100回分以上のご意見・ご質問を受け付けているとも言えると思います。

もちろん直接本人にいただいた質問に答えることと単純に比較することはできないですが、桁が2つ変わるくらいの量的な変化は、きっと、意見収集の質的な変化に繋がっていくと信じています。

いただいた質問は、ブロードリスニングの仕組みで分析することで政策意思決定に繋げていければと思います。（また別の記事でご説明したいと思います）

あらためて、AIあんのを含めた我々の取り組みが選挙活動や民主主義のあり方を変えていくと信じ、技術チームとして引き続き改善を続けていければと思います。

AIあんのに対するご意見・ご要望・気づいたことなどがありましたら、こちらまでよろしくお願いいたします！
https://docs.google.com/forms/d/e/1FAIpQLSelMHgDEl9lEZVq6bSGERFwKgqT0xuwWqvhhRLOp4rbdf-NCA/viewform

※ AIあんののシステムは、選挙期間終了後にオープンソースプロジェクトとして公開予定です。

安野たかひろについてもっと知りたい場合は公式サイトをご覧ください。
https://takahiroanno.com/

事務所Xアカウントをフォローして、最新情報をご確認ください。
https://x.com/annotakahiro24

都知事候補安野たかひろ選挙活動ストーリー

26本

コメントを投稿するには、ログインまたは会員登録をする必要があります。