本記事はアイドルマスター Advent Calendar 2017 12月19日の記事です。
おはようございます。たくみP(a.k.a imas_cg集計 @shuukei_imas_cg)です。担当はシンデレラガールズの喜多日菜子です。
ここまでのアイマスアドベントカレンダーのエントリ状況を見ていると、アイドルの話:技術の話がだいたい1:2くらいだったのですが、そのアイドルがいずれもボイス実装済みのアイドルばかりだったので、ここはひとつ、ボイス未実装アイドル担当Pの根性を見せなければ…と思って参加を決めた次第です。
ちなみに、このエントリを書くためだけにここのサイトを全面リニューアルしてhexoで書き直しました。
はじめに
さて、この記事では拙作「シンデレラガールズ台詞判定」のデータを使って「喜多日菜子っぽさ」「喜多日菜子っぽい台詞」を概観していきたいと思います。
なお、技術的解説に興味がない方は、特徴的な単語まで飛ばしていただいて構いません。
シンデレラガールズ台詞判定とは
「シンデレラガールズ台詞判定」はWebサービスとして動いていて、任意の台詞テキストを入力すると、それがシンデレラガールズの183人のアイドルの「誰が発した台詞に近いか」をスコア付きで返します。公式の台詞(学習データにある台詞)を入力すれば、55.23%の正解率で正しいアイドルを返します。
55.23%ってぜんぜんたいしたことないじゃないか…と思われそうですが、本サービスでは収集できる限りすべての台詞を対象としているので、ほんの一言二言の台詞がテストに使われることもあり……
例えば「いつもお疲れ様です」が誰の台詞かわかりますか? N高森藍子(特訓前)のマイスタジオでの台詞です。このようにぜんぜん特徴的でない台詞も対象とすることと、シンデレラガールズのアイドルが183人もいる(=183クラス分類)ことなどから、全体ではこれくらいの正解率になっています。
そのなかでは喜多日菜子は特徴的な単語や台詞回しが多く、だいたい8割くらいの正解率で判定が可能です。これは日菜子の喋りが特徴的であることに起因します。下図のように「妄想は、日菜子を輝かすパワー!」(ちなみにこれは[ワンダフルブライド]喜多日菜子のお仕事台詞です)を判定させると、正しい結果を返していることがわかります。4.0056…というところがスコアです。
シンデレラガールズ台詞判定では、入力された台詞テキストを「形態素」に分割し、形態素ごとに機械学習によって設定した「重み」を足し算してスコアとしています。つまり、
台詞テキストのスコア = w1a1 + w2a2 + w3a3…
(a1, a2…は形態素のありなし、w1, w2…は形態素ごとの重み)
というシンプルな一次方程式で算出できます。下図の例では「妄想」と「日菜子」に非常に大きな重みが付いていることがわかります。
プラスの重みが大きい形態素は「そのアイドルっぽさに寄与している」、マイナスの重みの形態素は「そのアイドルっぽくない」と言えます。
喜多日菜子は趣味が「妄想」、一人称が「日菜子」なのでそれらの重みが大きく、また、あまりエクスクラメーションマークを付けて勢いのある台詞を言う娘ではないので、「!」の重みがわずかにマイナスになっています。
「っぽさ」の定義
前節でかんたんに「重みがアイドルっぽさ/っぽくなさ に寄与している」と書きましたが、これはどうやって算出できるのでしょうか。
大ざっぱに言えば、文書分類のタスクでは定番のTF-IDFという手法が使えそうです。
厳密な解説は別のページを参考にしていただくとして、簡単に説明すると以下のようなものです。
- TF
- Term Frequency: 単語の出現頻度。文書内で単語がどれだけ出てきたか
- アイドルがたくさん喋る単語ほど重要!
- この場合は、「あるアイドルのすべての台詞」を「文書」と考え、形態素(単語)が何回出現したかを数える。当然、回数が多い単語の方が「っぽい」
- IDF
- Inverse Document Frequency: 逆文書頻度。単語がいくつの文書内で共通して使われているかの逆数
- すべてのアイドルが共通して喋る単語はあんまり重要じゃない!
- TF-IDF
- TFとIDFを掛け算したもの
例えば「妄想」という単語は日菜子の台詞中に頻繁に出現し、かつ他のアイドルはめったに口にしないので、「喜多日菜子っぽさ」になりえます。
逆に「アイドル」や「お仕事」という単語はどのアイドルも頻繁に喋るので、話者を特定する特徴とはなりにくいわけです。
このTF-IDFの考え方をベースに、機械学習で、アイドルを判定する性能が最大になるように重みを学習したものを「っぽさ」とここでは定義します。
特徴的な単語
それではモデル(学習データ)の中身を見ていきたいと思います。名詞、動詞、形容詞、副詞といった品詞ごとに取り上げます。
名詞TOP40
名詞は特にアイドルごとの特徴が現れやすいので、上位40個を紹介します。
単語 | 重み |
---|---|
妄想 | 1.68843955683 |
日菜子 | 1.64051925824 |
むふふ | 1.50030772823 |
むふ | 1.39486643992 |
むふふふ | 1.29935428452 |
王子 | 1.04841143912 |
白馬 | 0.756194254926 |
むふっ | 0.737221406995 |
むふふっ | 0.665024837905 |
むふぅ | 0.642317528846 |
妄想力 | 0.62899151046 |
むふふふっ | 0.622024859724 |
現実 | 0.621566088032 |
花火 | 0.614674495802 |
シチュエーション | 0.599291267123 |
お迎え | 0.598837951217 |
ぱわー | 0.577725706045 |
舞踏会 | 0.539189651938 |
出会い | 0.523343501115 |
芝居 | 0.516930718084 |
むふむふぅ | 0.509748766259 |
様 | 0.498253818178 |
むふふふふ | 0.497625502503 |
夢の国 | 0.493557489218 |
おもちゃ箱 | 0.479138049336 |
夢見 | 0.476441444608 |
下町 | 0.470120553386 |
式 | 0.460984231167 |
ラブラブ | 0.448143189958 |
銭湯 | 0.445895064428 |
浅草 | 0.436815082432 |
イメージ | 0.434948102807 |
風船 | 0.432006091966 |
いなせ | 0.428831726313 |
コト | 0.426187054881 |
口元 | 0.423298983758 |
ナニ | 0.417548001748 |
スタンバイ | 0.416103577219 |
見どころ | 0.411795812069 |
流れ | 0.411048573073 |
「妄想」「日菜子(一人称)」は基本です。「王子」「白馬」「舞踏会」「出会い」は王子様との邂逅に憧れる日菜子らしい語彙です。日菜子は妄想との対比で「現実」について言及することも多く、それが現れています。それになんといっても「むふふ」という笑みのバリエーションが豊かですね。
「夢の国」「おもちゃ箱」など遊園地っぽい明るいイメージの言葉もありますね。「花火」「下町」「いなせ」「銭湯」など「浅草」をイメージする言葉も多いです。これは「アイドルプロデュース 夜空に咲く花火編」の影響が大きいようです。
動詞TOP20
単語 | 重み |
---|---|
はりきっ | 0.627587933666 |
委ね | 0.627329102434 |
追いかける | 0.547803282738 |
夢見る | 0.461431869074 |
現れ | 0.419772280418 |
乾い | 0.402855157852 |
途切れ | 0.384679550659 |
知り | 0.381531839683 |
わかっ | 0.37797416182 |
止まり | 0.376154127915 |
緩ん | 0.371482035225 |
いい | 0.366925573606 |
昇る | 0.365230739117 |
描い | 0.34924574941 |
来 | 0.348761694776 |
描く | 0.348736371226 |
気にいっ | 0.334009289742 |
誘わ | 0.328260570765 |
動かし | 0.327079832554 |
過ごす | 0.324309702012 |
形態素の原型化(はりきっ→はりきる)をしていないので少し読みにくいですね。以下、解説では原型化して説明します。
「はりきる」「追いかける」「夢見る」は妄想は実現するものと言い切る日菜子らしい語彙です。「委ねる」「途切れる」「途切れる」は妄想に、「現れる」は王子様に掛かっているのでしょうか? 「描く」は[ドリームペイント]喜多日菜子の、「描い」はアイプロ中の台詞ですね。
形容詞TOP20
単語 | 重み |
---|---|
涼しく | 0.585090283128 |
うまく | 0.346868583081 |
めずらしく | 0.328260570765 |
もったいない | 0.32427435211 |
良い | 0.306837495466 |
かっこいい | 0.26866230564 |
良かっ | 0.263891819884 |
おかしく | 0.250527427861 |
小さい | 0.195624619722 |
づらい | 0.190789507912 |
遅い | 0.176357880235 |
おいしい | 0.175355345011 |
多い | 0.174933053804 |
激しく | 0.17319791019 |
暗 | 0.163181602955 |
弱かっ | 0.159489318728 |
すばらしい | 0.156364232302 |
速 | 0.15365870297 |
からぁ | 0.153308111306 |
小さかっ | 0.150517225266 |
「涼しい」は[ひらひらふわり]喜多日菜子の台詞中の単語でしょうか。基本的にポジティブな形容詞が並びます。
副詞TOP20
単語 | 重み |
---|---|
断然 | 0.627587933666 |
のほほん | 0.445895064428 |
キラキラ~ | 0.415947377682 |
じつは | 0.415127540127 |
ふわふわ | 0.406195996905 |
つるつる | 0.391319513321 |
ず~っと | 0.390536606312 |
ついに | 0.363514353818 |
キリッ | 0.348430200442 |
突然 | 0.32716780559 |
いっぱい | 0.321019311246 |
こっそり | 0.293094911568 |
もう少し | 0.288766033744 |
ギラギラ | 0.28545281291 |
ごほん | 0.281192481518 |
バッチリ | 0.281045711013 |
ドドーン | 0.253878682852 |
頭で | 0.246116444468 |
きっと | 0.227321301109 |
イロイロ | 0.226456464103 |
「断然」「キリッ」としながらも「のほほん」と、「キラキラ~」で「ふわふわ」で「つるつる」であることを「バッチリ」「きっと」信じている日菜子の姿が浮かびます。
まとめ
いかがでしたでしょうか。「妄想」が趣味でありながら、妄想は逃避ではなく実現するものと言い切るポジティブな日菜子の姿が見えてきたのではないでしょうか。
今回の集計にはすべてモバゲーの「アイドルマスターシンデレラガールズ」中の台詞を用いています。デレステしかプレーしたことのないという方も、一度、より豊かなテキストを楽しめるモバマスに触れてみてください。デレステでは見たことのないアイドルの姿が見られるかもしれません。
モバマスはプレーしてないけどといりそぎ触れてみたいという方は、喜多日菜子wiki ~ひなこぺでぃあ~へどうぞ。
おまけ: 183アイドルの最も特徴的な単語
183人のアイドルについて、それぞれをもっとも特徴づける単語(形態素)は何でしょうか?
そこで、各アイドルについて、いちばん重みの大きかった形態素を一覧にしたのが下の表です。
(これは「そのアイドルが一番多く言った形態素」ではなく、「だれの発言かわからない台詞中にその形態素があったら、このアイドルの発言である可能性が一番高い」くらいのニュアンスです)
スコア降順にソートしてあります。大まかには納得できる結果になっているのでは…?
台詞に特徴のない、ふつうの喋り方をするアイドルほど「なんでそんな単語が?」というような単語が上がります。(一部、形態素解析のミスっぽい部分も散見されます)
アイドル名 | 形態素(品詞) | スコア |
---|---|---|
メアリー・コクラン | ワ(助詞) | 2.10814204583 |
城ヶ崎美嘉 | ★(記号) | 2.10740663105 |
奥山沙織 | だす(動詞) | 2.01116202133 |
北条加蓮 | 話す(動詞) | 1.99598099816 |
大槻唯 | ゆい(動詞) | 1.93746422757 |
龍崎薫 | かおる(名詞) | 1.92601170512 |
結城晴 | オレ(名詞) | 1.92399965942 |
佐々木千枝 | 千枝(名詞) | 1.91184268425 |
荒木比奈 | ス(名詞) | 1.88967602765 |
椎名法子 | ドーナツ(名詞) | 1.84422865739 |
土屋亜子 | Pちゃん(名詞) | 1.83043515181 |
双葉杏 | 杏(名詞) | 1.82474890273 |
脇山珠美 | 珠美(名詞) | 1.78406017575 |
岸部彩華 | あや(名詞) | 1.77242950763 |
佐久間まゆ | まゆ(名詞) | 1.76079064489 |
桃井あずき | あずき(名詞) | 1.75429186437 |
松原早耶 | 早耶(名詞) | 1.7531746095 |
柳瀬美由紀 | みゆき(名詞) | 1.71183382839 |
喜多日菜子 | 妄想(名詞) | 1.68843955683 |
楊菲菲 | ふぇいふぇい(名詞) | 1.6829560707 |
浅利七海 | れす(名詞) | 1.67720672723 |
佐藤心 | スウィーティー(名詞) | 1.66523530437 |
ナターリア | ナ(助詞) | 1.65636403264 |
冴島清美 | 風紀(名詞) | 1.65083411632 |
安部菜々 | ナナ(名詞) | 1.64082337171 |
小早川紗枝 | どす(助動詞) | 1.63541171805 |
前川みく | チャン(名詞) | 1.5893020776 |
木村夏樹 | だりー(名詞) | 1.57350903958 |
棟方愛海 | お山(名詞) | 1.57207174574 |
月宮雅 | みやびぃ(名詞) | 1.56636770012 |
吉岡沙紀 | っす(助動詞) | 1.56610289437 |
古賀小春 | 小春(名詞) | 1.55002480569 |
池袋晶葉 | ロボ(名詞) | 1.53530658256 |
大和亜季 | あり(助動詞) | 1.53249562799 |
喜多見柚 | 柚(名詞) | 1.52350948415 |
相葉夕美 | ウサミミ(名詞) | 1.50968229771 |
村上巴 | のう(助詞) | 1.50734640581 |
大原みちる | パン(名詞) | 1.50130876675 |
ケイト | マス(名詞) | 1.4904986125 |
森久保乃々 | りく(名詞) | 1.48971410951 |
市原仁奈 | 仁奈(名詞) | 1.48904450166 |
有浦柑奈 | ラブ&ピース(名詞) | 1.488663961 |
遊佐こずえ | こずえ(名詞) | 1.48544410275 |
諸星きらり | きらりん(名詞) | 1.46988928969 |
上田鈴帆 | しゃん(名詞) | 1.466955332 |
イヴ・サンタクロース | ブリッツェン(名詞) | 1.45697276241 |
太田優 | アッキー(名詞) | 1.45507012529 |
ライラ | ライラ(名詞) | 1.44964094377 |
堀裕子 | 超能力(名詞) | 1.44851637997 |
キャシー・グラハム | キャシー(名詞) | 1.44778774659 |
大沼くるみ | くるみ(動詞) | 1.44537382224 |
上条春菜 | 眼鏡(名詞) | 1.44185895178 |
輿水幸子 | ボク(名詞) | 1.43549867317 |
多田李衣菜 | リーナ(名詞) | 1.42797974901 |
村松さくら | ぇす(名詞) | 1.42618933119 |
水木聖來 | わんこ(名詞) | 1.41864456036 |
神崎蘭子 | !((記号) | 1.41816876486 |
安斎都 | 探偵(名詞) | 1.40821954656 |
星輝子 | フヒ(名詞) | 1.40760086541 |
小関麗奈 | レイナ(名詞) | 1.40236372364 |
中野有香 | 押(名詞) | 1.39392140194 |
野々村そら | はっぴー(名詞) | 1.38887394435 |
赤城みりあ | みりあ(名詞) | 1.36851093535 |
財前時子 | チッ(副詞) | 1.36583331996 |
浜口あやめ | ニンッ(名詞) | 1.35610035005 |
白菊ほたる | 不幸(名詞) | 1.35306575892 |
藤居朋 | 運気(名詞) | 1.34726998925 |
綾瀬穂乃香 | バレエ(名詞) | 1.3428417505 |
城ヶ崎莉嘉 | リカ(名詞) | 1.31832540653 |
姫川友紀 | 野球(名詞) | 1.31488526361 |
横山千佳 | ラブリーチカ(名詞) | 1.31372687319 |
的場梨沙 | パパ(名詞) | 1.30487107035 |
ヘレン | ヘレン(名詞) | 1.30287389107 |
及川雫 | すー(副詞) | 1.29853924233 |
八神マキノ | 情報(名詞) | 1.29692183686 |
三好紗南 | ゲーム(名詞) | 1.294726991 |
桐生つかさ | お前(名詞) | 1.29152090062 |
原田美世 | クルマ(名詞) | 1.29041925701 |
藤本里奈 | ぢ(名詞) | 1.27673185726 |
佐城雪美 | ペロ(名詞) | 1.27526875284 |
本田未央 | しぶりん(名詞) | 1.26591687291 |
大西由里子 | ユリユリ(名詞) | 1.26429972738 |
二宮飛鳥 | ボク(名詞) | 1.26163752158 |
川島瑞樹 | ミズキ(名詞) | 1.25960483357 |
持田亜里沙 | ウサコ(名詞) | 1.2533411157 |
衛藤美紗希 | 女子力(名詞) | 1.24811543227 |
東郷あい | 留美(名詞) | 1.24523341656 |
赤西瑛梨華 | 瑛梨華ちん(名詞) | 1.24233888281 |
緒方智絵里 | クローバー(名詞) | 1.23163145308 |
塩見周子 | こちゃ(名詞) | 1.21919520348 |
矢口美羽 | ギャグ(名詞) | 1.21275379708 |
大石泉 | 亜子(名詞) | 1.20069079383 |
島村卯月 | 島村卯月(名詞) | 1.19171952572 |
藤原肇 | おじいちゃん(名詞) | 1.18289073891 |
櫻井桃華 | ちゃ(名詞) | 1.1778518076 |
依田芳乃 | そなた(名詞) | 1.17642530848 |
今井加奈 | メモ(名詞) | 1.17460013 |
渋谷凛 | 未央(名詞) | 1.17101870134 |
水野翠 | 弓(名詞) | 1.1510957898 |
一ノ瀬志希 | 志希(名詞) | 1.14202327723 |
浜川愛結奈 | ワタ(名詞) | 1.13807916041 |
鷹富士茄子 | カコ(名詞) | 1.12625414692 |
アナスタシア | ダー(副詞) | 1.11246416044 |
松本沙理奈 | フっ(副詞) | 1.1109684361 |
柳清良 | こんにちは(感動詞) | 1.10118796865 |
井村雪菜 | メイク(名詞) | 1.09535767698 |
丹羽仁美 | 慶次(名詞) | 1.09518901487 |
片桐早苗 | タイホ(名詞) | 1.09218923994 |
松永涼 | サン(名詞) | 1.09108518489 |
愛野渚 | ねッ(助詞) | 1.08901733358 |
宮本フレデリカ | フレ(名詞) | 1.08816522007 |
速水奏 | 唇(名詞) | 1.07987625754 |
江上椿 | 椿(名詞) | 1.06931526328 |
早坂美玲 | ウチ(名詞) | 1.06531168304 |
新田美波 | みなみ(名詞) | 1.05811766935 |
岡崎泰葉 | かくし芸(名詞) | 1.05633441339 |
氏家むつみ | 冒険(名詞) | 1.04894345151 |
槙原志保 | パフェ(名詞) | 1.04504537614 |
南条光 | ヒーロー(名詞) | 1.04403987848 |
相馬夏美 | フライト(名詞) | 1.04048453396 |
道明寺歌鈴 | 歌鈴(名詞) | 1.03927231991 |
北川真尋 | まひろ(名詞) | 1.0369857479 |
松尾千鶴 | ハッ(副詞) | 1.02643562624 |
難波笑美 | ねん(助詞) | 1.01069147447 |
橘ありす | 理論(名詞) | 0.991841198626 |
三村かな子 | ゲスト(名詞) | 0.991685486428 |
高橋礼子 | ジューシー(名詞) | 0.991286065913 |
木場真奈美 | トリック・オア・トリート(名詞) | 0.988188368491 |
涼宮星花 | わたくし(名詞) | 0.973064876714 |
日野茜 | !!!(記号) | 0.971032750941 |
首藤葵 | 方言(名詞) | 0.961888400784 |
榊原里美 | ほわ(副詞) | 0.950497005379 |
クラリス | クラリス(名詞) | 0.941379040809 |
神谷奈緒 | 加蓮(名詞) | 0.939218428756 |
杉坂海 | ウチ(名詞) | 0.938895701299 |
柊志乃 | ワイン(名詞) | 0.933460107186 |
成宮由愛 | スケッチ(名詞) | 0.927931983316 |
松山久美子 | ピアノ(名詞) | 0.925587838452 |
桐野アヤ | アタイ(名詞) | 0.925228049169 |
栗原ネネ | 妹(名詞) | 0.92021007865 |
白坂小梅 | 映画(名詞) | 0.909429273141 |
海老原菜帆 | プニョフワ(名詞) | 0.902310751451 |
兵藤レナ | トランプ(名詞) | 0.891727132152 |
仙崎恵磨 | ざー(副詞) | 0.88672457623 |
水本ゆかり | フルート(名詞) | 0.884800397846 |
十時愛梨 | 愛梨(名詞) | 0.881454476634 |
梅木音葉 | 旋律(名詞) | 0.879974505522 |
福山舞 | 子供っぽく(形容詞) | 0.878353308414 |
伊集院惠 | 旅(名詞) | 0.873046970046 |
斉藤洋子 | 美肌(名詞) | 0.863543547825 |
向井拓海 | ねぇ(助動詞) | 0.863452015993 |
並木芽衣子 | 和歌山(名詞) | 0.856239799779 |
三船美優 | あじさい(名詞) | 0.850270427075 |
小日向美穂 | 小日向美穂(名詞) | 0.840412238001 |
間中美里 | 旅行(名詞) | 0.835579801787 |
鷺沢文香 | 本(名詞) | 0.822342692851 |
関裕美 | 笑える(動詞) | 0.818462627885 |
古澤頼子 | 構図(名詞) | 0.810458356032 |
沢田麻理菜 | 波(名詞) | 0.809179562557 |
西園寺琴歌 | 姫川(名詞) | 0.802335884956 |
五十嵐響子 | ひなたぼっこ(名詞) | 0.796734048147 |
高森藍子 | 有り余っ(動詞) | 0.789920224538 |
工藤忍 | オマケ(名詞) | 0.788237548214 |
真鍋いつき | ジム(名詞) | 0.781146610938 |
高垣楓 | 唯ちゃん(名詞) | 0.774569578774 |
服部瞳子 | 選ん(動詞) | 0.773882042642 |
長富蓮実 | 時代(名詞) | 0.765434231936 |
黒川千秋 | 機会(名詞) | 0.761152285582 |
和久井留美 | ファンタジー(名詞) | 0.756573196594 |
相原雪乃 | 力強く(形容詞) | 0.749850748442 |
乙倉悠貴 | 可愛いっ(形容詞) | 0.748925979711 |
日下部若葉 | お色気(名詞) | 0.748479034952 |
高峯のあ | 星図(名詞) | 0.743322972728 |
小松伊吹 | フィーリング(名詞) | 0.740537583189 |
浅野風香 | コタツ(名詞) | 0.72861650879 |
相川千夏 | カフェ(名詞) | 0.722800897542 |
小室千奈美 | 余裕(名詞) | 0.720583733906 |
望月聖 | わたし(名詞) | 0.718487238452 |
瀬名詩織 | 歩み寄れる(動詞) | 0.709219239968 |
篠原礼 | 七夕(名詞) | 0.698674739584 |
西島櫂 | イルカ(名詞) | 0.688485948297 |
若林智香 | 洋子(名詞) | 0.675728767917 |
西川保奈美 | 終わら(動詞) | 0.647387816316 |