shuukei.info

日菜子っぽさを台詞テキストから探る

2017-12-19

本記事はアイドルマスター Advent Calendar 2017 12月19日の記事です。

おはようございます。たくみP(a.k.a imas_cg集計 @shuukei_imas_cg)です。担当はシンデレラガールズの喜多日菜子です。

ここまでのアイマスアドベントカレンダーのエントリ状況を見ていると、アイドルの話:技術の話がだいたい1:2くらいだったのですが、そのアイドルがいずれもボイス実装済みのアイドルばかりだったので、ここはひとつ、ボイス未実装アイドル担当Pの根性を見せなければ…と思って参加を決めた次第です。
ちなみに、このエントリを書くためだけにここのサイトを全面リニューアルしてhexoで書き直しました。

はじめに

さて、この記事では拙作「シンデレラガールズ台詞判定」のデータを使って「喜多日菜子っぽさ」「喜多日菜子っぽい台詞」を概観していきたいと思います。

なお、技術的解説に興味がない方は、特徴的な単語まで飛ばしていただいて構いません。

シンデレラガールズ台詞判定とは

「シンデレラガールズ台詞判定」はWebサービスとして動いていて、任意の台詞テキストを入力すると、それがシンデレラガールズの183人のアイドルの「誰が発した台詞に近いか」をスコア付きで返します。公式の台詞(学習データにある台詞)を入力すれば、55.23%の正解率で正しいアイドルを返します。

55.23%ってぜんぜんたいしたことないじゃないか…と思われそうですが、本サービスでは収集できる限りすべての台詞を対象としているので、ほんの一言二言の台詞がテストに使われることもあり……
例えば「いつもお疲れ様です」が誰の台詞かわかりますか? N高森藍子(特訓前)のマイスタジオでの台詞です。このようにぜんぜん特徴的でない台詞も対象とすることと、シンデレラガールズのアイドルが183人もいる(=183クラス分類)ことなどから、全体ではこれくらいの正解率になっています。

そのなかでは喜多日菜子は特徴的な単語や台詞回しが多く、だいたい8割くらいの正解率で判定が可能です。これは日菜子の喋りが特徴的であることに起因します。下図のように「妄想は、日菜子を輝かすパワー!」(ちなみにこれは[ワンダフルブライド]喜多日菜子のお仕事台詞です)を判定させると、正しい結果を返していることがわかります。4.0056…というところがスコアです。
アイドル判定画面

シンデレラガールズ台詞判定では、入力された台詞テキストを「形態素」に分割し、形態素ごとに機械学習によって設定した「重み」を足し算してスコアとしています。つまり、

台詞テキストのスコア = w1a1 + w2a2 + w3a3…
(a1, a2…は形態素のありなし、w1, w2…は形態素ごとの重み)

というシンプルな一次方程式で算出できます。下図の例では「妄想」と「日菜子」に非常に大きな重みが付いていることがわかります。
形態素スコア画面
プラスの重みが大きい形態素は「そのアイドルっぽさに寄与している」、マイナスの重みの形態素は「そのアイドルっぽくない」と言えます。
喜多日菜子は趣味が「妄想」、一人称が「日菜子」なのでそれらの重みが大きく、また、あまりエクスクラメーションマークを付けて勢いのある台詞を言う娘ではないので、「!」の重みがわずかにマイナスになっています。

「っぽさ」の定義

前節でかんたんに「重みがアイドルっぽさ/っぽくなさ に寄与している」と書きましたが、これはどうやって算出できるのでしょうか。
大ざっぱに言えば、文書分類のタスクでは定番のTF-IDFという手法が使えそうです。

厳密な解説は別のページを参考にしていただくとして、簡単に説明すると以下のようなものです。

  • TF
    • Term Frequency: 単語の出現頻度。文書内で単語がどれだけ出てきたか
    • アイドルがたくさん喋る単語ほど重要!
    • この場合は、「あるアイドルのすべての台詞」を「文書」と考え、形態素(単語)が何回出現したかを数える。当然、回数が多い単語の方が「っぽい」
  • IDF
    • Inverse Document Frequency: 逆文書頻度。単語がいくつの文書内で共通して使われているかの逆数
    • すべてのアイドルが共通して喋る単語はあんまり重要じゃない!
  • TF-IDF
    • TFとIDFを掛け算したもの

例えば「妄想」という単語は日菜子の台詞中に頻繁に出現し、かつ他のアイドルはめったに口にしないので、「喜多日菜子っぽさ」になりえます。
逆に「アイドル」や「お仕事」という単語はどのアイドルも頻繁に喋るので、話者を特定する特徴とはなりにくいわけです。

このTF-IDFの考え方をベースに、機械学習で、アイドルを判定する性能が最大になるように重みを学習したものを「っぽさ」とここでは定義します。

特徴的な単語

それではモデル(学習データ)の中身を見ていきたいと思います。名詞、動詞、形容詞、副詞といった品詞ごとに取り上げます。

名詞TOP40

名詞は特にアイドルごとの特徴が現れやすいので、上位40個を紹介します。

単語 重み
妄想 1.68843955683
日菜子 1.64051925824
むふふ 1.50030772823
むふ 1.39486643992
むふふふ 1.29935428452
王子 1.04841143912
白馬 0.756194254926
むふっ 0.737221406995
むふふっ 0.665024837905
むふぅ 0.642317528846
妄想力 0.62899151046
むふふふっ 0.622024859724
現実 0.621566088032
花火 0.614674495802
シチュエーション 0.599291267123
お迎え 0.598837951217
ぱわー 0.577725706045
舞踏会 0.539189651938
出会い 0.523343501115
芝居 0.516930718084
むふむふぅ 0.509748766259
0.498253818178
むふふふふ 0.497625502503
夢の国 0.493557489218
おもちゃ箱 0.479138049336
夢見 0.476441444608
下町 0.470120553386
0.460984231167
ラブラブ 0.448143189958
銭湯 0.445895064428
浅草 0.436815082432
イメージ 0.434948102807
風船 0.432006091966
いなせ 0.428831726313
コト 0.426187054881
口元 0.423298983758
ナニ 0.417548001748
スタンバイ 0.416103577219
見どころ 0.411795812069
流れ 0.411048573073

「妄想」「日菜子(一人称)」は基本です。「王子」「白馬」「舞踏会」「出会い」は王子様との邂逅に憧れる日菜子らしい語彙です。日菜子は妄想との対比で「現実」について言及することも多く、それが現れています。それになんといっても「むふふ」という笑みのバリエーションが豊かですね。

「夢の国」「おもちゃ箱」など遊園地っぽい明るいイメージの言葉もありますね。「花火」「下町」「いなせ」「銭湯」など「浅草」をイメージする言葉も多いです。これは「アイドルプロデュース 夜空に咲く花火編」の影響が大きいようです。

動詞TOP20

単語 重み
はりきっ 0.627587933666
委ね 0.627329102434
追いかける 0.547803282738
夢見る 0.461431869074
現れ 0.419772280418
乾い 0.402855157852
途切れ 0.384679550659
知り 0.381531839683
わかっ 0.37797416182
止まり 0.376154127915
緩ん 0.371482035225
いい 0.366925573606
昇る 0.365230739117
描い 0.34924574941
0.348761694776
描く 0.348736371226
気にいっ 0.334009289742
誘わ 0.328260570765
動かし 0.327079832554
過ごす 0.324309702012

形態素の原型化(はりきっ→はりきる)をしていないので少し読みにくいですね。以下、解説では原型化して説明します。

「はりきる」「追いかける」「夢見る」は妄想は実現するものと言い切る日菜子らしい語彙です。「委ねる」「途切れる」「途切れる」は妄想に、「現れる」は王子様に掛かっているのでしょうか? 「描く」は[ドリームペイント]喜多日菜子の、「描い」はアイプロ中の台詞ですね。

形容詞TOP20

単語 重み
涼しく 0.585090283128
うまく 0.346868583081
めずらしく 0.328260570765
もったいない 0.32427435211
良い 0.306837495466
かっこいい 0.26866230564
良かっ 0.263891819884
おかしく 0.250527427861
小さい 0.195624619722
づらい 0.190789507912
遅い 0.176357880235
おいしい 0.175355345011
多い 0.174933053804
激しく 0.17319791019
0.163181602955
弱かっ 0.159489318728
すばらしい 0.156364232302
0.15365870297
からぁ 0.153308111306
小さかっ 0.150517225266

「涼しい」は[ひらひらふわり]喜多日菜子の台詞中の単語でしょうか。基本的にポジティブな形容詞が並びます。

副詞TOP20

単語 重み
断然 0.627587933666
のほほん 0.445895064428
キラキラ~ 0.415947377682
じつは 0.415127540127
ふわふわ 0.406195996905
つるつる 0.391319513321
ず~っと 0.390536606312
ついに 0.363514353818
キリッ 0.348430200442
突然 0.32716780559
いっぱい 0.321019311246
こっそり 0.293094911568
もう少し 0.288766033744
ギラギラ 0.28545281291
ごほん 0.281192481518
バッチリ 0.281045711013
ドドーン 0.253878682852
頭で 0.246116444468
きっと 0.227321301109
イロイロ 0.226456464103

「断然」「キリッ」としながらも「のほほん」と、「キラキラ~」で「ふわふわ」で「つるつる」であることを「バッチリ」「きっと」信じている日菜子の姿が浮かびます。

まとめ

いかがでしたでしょうか。「妄想」が趣味でありながら、妄想は逃避ではなく実現するものと言い切るポジティブな日菜子の姿が見えてきたのではないでしょうか。

今回の集計にはすべてモバゲーの「アイドルマスターシンデレラガールズ」中の台詞を用いています。デレステしかプレーしたことのないという方も、一度、より豊かなテキストを楽しめるモバマスに触れてみてください。デレステでは見たことのないアイドルの姿が見られるかもしれません。
モバマスはプレーしてないけどといりそぎ触れてみたいという方は、喜多日菜子wiki ~ひなこぺでぃあ~へどうぞ。

おまけ: 183アイドルの最も特徴的な単語

183人のアイドルについて、それぞれをもっとも特徴づける単語(形態素)は何でしょうか?
そこで、各アイドルについて、いちばん重みの大きかった形態素を一覧にしたのが下の表です。
(これは「そのアイドルが一番多く言った形態素」ではなく、「だれの発言かわからない台詞中にその形態素があったら、このアイドルの発言である可能性が一番高い」くらいのニュアンスです)
スコア降順にソートしてあります。大まかには納得できる結果になっているのでは…?

台詞に特徴のない、ふつうの喋り方をするアイドルほど「なんでそんな単語が?」というような単語が上がります。(一部、形態素解析のミスっぽい部分も散見されます)

アイドル名 形態素(品詞) スコア
メアリー・コクラン ワ(助詞) 2.10814204583
城ヶ崎美嘉 ★(記号) 2.10740663105
奥山沙織 だす(動詞) 2.01116202133
北条加蓮 話す(動詞) 1.99598099816
大槻唯 ゆい(動詞) 1.93746422757
龍崎薫 かおる(名詞) 1.92601170512
結城晴 オレ(名詞) 1.92399965942
佐々木千枝 千枝(名詞) 1.91184268425
荒木比奈 ス(名詞) 1.88967602765
椎名法子 ドーナツ(名詞) 1.84422865739
土屋亜子 Pちゃん(名詞) 1.83043515181
双葉杏 杏(名詞) 1.82474890273
脇山珠美 珠美(名詞) 1.78406017575
岸部彩華 あや(名詞) 1.77242950763
佐久間まゆ まゆ(名詞) 1.76079064489
桃井あずき あずき(名詞) 1.75429186437
松原早耶 早耶(名詞) 1.7531746095
柳瀬美由紀 みゆき(名詞) 1.71183382839
喜多日菜子 妄想(名詞) 1.68843955683
楊菲菲 ふぇいふぇい(名詞) 1.6829560707
浅利七海 れす(名詞) 1.67720672723
佐藤心 スウィーティー(名詞) 1.66523530437
ナターリア ナ(助詞) 1.65636403264
冴島清美 風紀(名詞) 1.65083411632
安部菜々 ナナ(名詞) 1.64082337171
小早川紗枝 どす(助動詞) 1.63541171805
前川みく チャン(名詞) 1.5893020776
木村夏樹 だりー(名詞) 1.57350903958
棟方愛海 お山(名詞) 1.57207174574
月宮雅 みやびぃ(名詞) 1.56636770012
吉岡沙紀 っす(助動詞) 1.56610289437
古賀小春 小春(名詞) 1.55002480569
池袋晶葉 ロボ(名詞) 1.53530658256
大和亜季 あり(助動詞) 1.53249562799
喜多見柚 柚(名詞) 1.52350948415
相葉夕美 ウサミミ(名詞) 1.50968229771
村上巴 のう(助詞) 1.50734640581
大原みちる パン(名詞) 1.50130876675
ケイト マス(名詞) 1.4904986125
森久保乃々 りく(名詞) 1.48971410951
市原仁奈 仁奈(名詞) 1.48904450166
有浦柑奈 ラブ&ピース(名詞) 1.488663961
遊佐こずえ こずえ(名詞) 1.48544410275
諸星きらり きらりん(名詞) 1.46988928969
上田鈴帆 しゃん(名詞) 1.466955332
イヴ・サンタクロース ブリッツェン(名詞) 1.45697276241
太田優 アッキー(名詞) 1.45507012529
ライラ ライラ(名詞) 1.44964094377
堀裕子 超能力(名詞) 1.44851637997
キャシー・グラハム キャシー(名詞) 1.44778774659
大沼くるみ くるみ(動詞) 1.44537382224
上条春菜 眼鏡(名詞) 1.44185895178
輿水幸子 ボク(名詞) 1.43549867317
多田李衣菜 リーナ(名詞) 1.42797974901
村松さくら ぇす(名詞) 1.42618933119
水木聖來 わんこ(名詞) 1.41864456036
神崎蘭子 !((記号) 1.41816876486
安斎都 探偵(名詞) 1.40821954656
星輝子 フヒ(名詞) 1.40760086541
小関麗奈 レイナ(名詞) 1.40236372364
中野有香 押(名詞) 1.39392140194
野々村そら はっぴー(名詞) 1.38887394435
赤城みりあ みりあ(名詞) 1.36851093535
財前時子 チッ(副詞) 1.36583331996
浜口あやめ ニンッ(名詞) 1.35610035005
白菊ほたる 不幸(名詞) 1.35306575892
藤居朋 運気(名詞) 1.34726998925
綾瀬穂乃香 バレエ(名詞) 1.3428417505
城ヶ崎莉嘉 リカ(名詞) 1.31832540653
姫川友紀 野球(名詞) 1.31488526361
横山千佳 ラブリーチカ(名詞) 1.31372687319
的場梨沙 パパ(名詞) 1.30487107035
ヘレン ヘレン(名詞) 1.30287389107
及川雫 すー(副詞) 1.29853924233
八神マキノ 情報(名詞) 1.29692183686
三好紗南 ゲーム(名詞) 1.294726991
桐生つかさ お前(名詞) 1.29152090062
原田美世 クルマ(名詞) 1.29041925701
藤本里奈 ぢ(名詞) 1.27673185726
佐城雪美 ペロ(名詞) 1.27526875284
本田未央 しぶりん(名詞) 1.26591687291
大西由里子 ユリユリ(名詞) 1.26429972738
二宮飛鳥 ボク(名詞) 1.26163752158
川島瑞樹 ミズキ(名詞) 1.25960483357
持田亜里沙 ウサコ(名詞) 1.2533411157
衛藤美紗希 女子力(名詞) 1.24811543227
東郷あい 留美(名詞) 1.24523341656
赤西瑛梨華 瑛梨華ちん(名詞) 1.24233888281
緒方智絵里 クローバー(名詞) 1.23163145308
塩見周子 こちゃ(名詞) 1.21919520348
矢口美羽 ギャグ(名詞) 1.21275379708
大石泉 亜子(名詞) 1.20069079383
島村卯月 島村卯月(名詞) 1.19171952572
藤原肇 おじいちゃん(名詞) 1.18289073891
櫻井桃華 ちゃ(名詞) 1.1778518076
依田芳乃 そなた(名詞) 1.17642530848
今井加奈 メモ(名詞) 1.17460013
渋谷凛 未央(名詞) 1.17101870134
水野翠 弓(名詞) 1.1510957898
一ノ瀬志希 志希(名詞) 1.14202327723
浜川愛結奈 ワタ(名詞) 1.13807916041
鷹富士茄子 カコ(名詞) 1.12625414692
アナスタシア ダー(副詞) 1.11246416044
松本沙理奈 フっ(副詞) 1.1109684361
柳清良 こんにちは(感動詞) 1.10118796865
井村雪菜 メイク(名詞) 1.09535767698
丹羽仁美 慶次(名詞) 1.09518901487
片桐早苗 タイホ(名詞) 1.09218923994
松永涼 サン(名詞) 1.09108518489
愛野渚 ねッ(助詞) 1.08901733358
宮本フレデリカ フレ(名詞) 1.08816522007
速水奏 唇(名詞) 1.07987625754
江上椿 椿(名詞) 1.06931526328
早坂美玲 ウチ(名詞) 1.06531168304
新田美波 みなみ(名詞) 1.05811766935
岡崎泰葉 かくし芸(名詞) 1.05633441339
氏家むつみ 冒険(名詞) 1.04894345151
槙原志保 パフェ(名詞) 1.04504537614
南条光 ヒーロー(名詞) 1.04403987848
相馬夏美 フライト(名詞) 1.04048453396
道明寺歌鈴 歌鈴(名詞) 1.03927231991
北川真尋 まひろ(名詞) 1.0369857479
松尾千鶴 ハッ(副詞) 1.02643562624
難波笑美 ねん(助詞) 1.01069147447
橘ありす 理論(名詞) 0.991841198626
三村かな子 ゲスト(名詞) 0.991685486428
高橋礼子 ジューシー(名詞) 0.991286065913
木場真奈美 トリック・オア・トリート(名詞) 0.988188368491
涼宮星花 わたくし(名詞) 0.973064876714
日野茜 !!!(記号) 0.971032750941
首藤葵 方言(名詞) 0.961888400784
榊原里美 ほわ(副詞) 0.950497005379
クラリス クラリス(名詞) 0.941379040809
神谷奈緒 加蓮(名詞) 0.939218428756
杉坂海 ウチ(名詞) 0.938895701299
柊志乃 ワイン(名詞) 0.933460107186
成宮由愛 スケッチ(名詞) 0.927931983316
松山久美子 ピアノ(名詞) 0.925587838452
桐野アヤ アタイ(名詞) 0.925228049169
栗原ネネ 妹(名詞) 0.92021007865
白坂小梅 映画(名詞) 0.909429273141
海老原菜帆 プニョフワ(名詞) 0.902310751451
兵藤レナ トランプ(名詞) 0.891727132152
仙崎恵磨 ざー(副詞) 0.88672457623
水本ゆかり フルート(名詞) 0.884800397846
十時愛梨 愛梨(名詞) 0.881454476634
梅木音葉 旋律(名詞) 0.879974505522
福山舞 子供っぽく(形容詞) 0.878353308414
伊集院惠 旅(名詞) 0.873046970046
斉藤洋子 美肌(名詞) 0.863543547825
向井拓海 ねぇ(助動詞) 0.863452015993
並木芽衣子 和歌山(名詞) 0.856239799779
三船美優 あじさい(名詞) 0.850270427075
小日向美穂 小日向美穂(名詞) 0.840412238001
間中美里 旅行(名詞) 0.835579801787
鷺沢文香 本(名詞) 0.822342692851
関裕美 笑える(動詞) 0.818462627885
古澤頼子 構図(名詞) 0.810458356032
沢田麻理菜 波(名詞) 0.809179562557
西園寺琴歌 姫川(名詞) 0.802335884956
五十嵐響子 ひなたぼっこ(名詞) 0.796734048147
高森藍子 有り余っ(動詞) 0.789920224538
工藤忍 オマケ(名詞) 0.788237548214
真鍋いつき ジム(名詞) 0.781146610938
高垣楓 唯ちゃん(名詞) 0.774569578774
服部瞳子 選ん(動詞) 0.773882042642
長富蓮実 時代(名詞) 0.765434231936
黒川千秋 機会(名詞) 0.761152285582
和久井留美 ファンタジー(名詞) 0.756573196594
相原雪乃 力強く(形容詞) 0.749850748442
乙倉悠貴 可愛いっ(形容詞) 0.748925979711
日下部若葉 お色気(名詞) 0.748479034952
高峯のあ 星図(名詞) 0.743322972728
小松伊吹 フィーリング(名詞) 0.740537583189
浅野風香 コタツ(名詞) 0.72861650879
相川千夏 カフェ(名詞) 0.722800897542
小室千奈美 余裕(名詞) 0.720583733906
望月聖 わたし(名詞) 0.718487238452
瀬名詩織 歩み寄れる(動詞) 0.709219239968
篠原礼 七夕(名詞) 0.698674739584
西島櫂 イルカ(名詞) 0.688485948297
若林智香 洋子(名詞) 0.675728767917
西川保奈美 終わら(動詞) 0.647387816316