このサイトについて
本サイトは国立国会図書館の国会議事録検索システムで収集した議事録データから、使用されている単語を抽出・集計し、発言者ごとにまとめたものです。 対象とした議事録データは2019年以降のものです。 掲載しているデータは、単に単語の出現回数を元に集計したものであり、該当単語に関する発言者の主張、発言の根拠、発言の妥当性を示すものではありません。
掲載しているデータは、国会議事録の更新・集計方法の改善などにより、予告なく変更される場合があります。
本サイトの開発・管理は管理者個人が実施しており、あらゆる団体・企業とは一切関係ございません。
また本サイトのデータを用いた際のトラブルに関して、管理者は一切責任を負いませんのでご了承ください。
集計方法
単語の抽出・集計
国会議事録の会話文に対して形態素解析を実施して品詞ごとに分解し、名詞のみを抽出して集計を行なっています。 解析用の辞書として独自のユーザー定義辞書を使用しています。 ユーザー定義辞書の単語数は現在15,000語程度であり、今後も継続して単語追加する予定です。
略称の使用(例:経済産業省 / 経産省)、表記ゆれ(例:Go To トラベル / ゴー・トゥー・トラベル)などの理由により、同じ意味で異なる表記の単語は、別々の単語として集計しています。
議員の所属・役職
議員の院内会派は衆議院・参議院公式サイトのプロフィールページから取得しています。 在職中に亡くなられた、もしくは辞職されたなどによりプロフィールページが削除されている議員は会派がNo Dataと表示されます。
役職は首相官邸公式サイトの現行内閣の閣僚等名簿ページから取得しています。 また一部発言者については、議事録内のpositionタグから役職を取得しています。
頻出語・特徴語
発言の中で多く出現する単語を「頻出語」、その発言者を特徴付ける単語を「特徴語」と定義しています。
頻出語のスコアは、単語の出現回数を単純に集計したものです。
特徴語のスコアは、各議員の総発言を一文書とみなしてTF-IDF値を計算したものです。TF-IDF値は各議員が該当単語を多く発言するほど高くなり、逆にその他の議員が発言すると低くなります。 計算処理時間の都合上、特徴語スコアの計算は5回以上登場する単語に対してのみ行っています。 よって発言回数が多い場合でも、発言単語が幅広く分散し、各単語の出現回数が少ない場合は特徴語の数が少なくなる場合があります。
また衆議院議長・参議院議長の発言は、議論ではなく議会運営に関するものが多いため、集計から除外しています。
ワードクラウド
各議員の特徴語をワードクラウド図にして掲載しています。
図中の単語の文字サイズは特徴語スコアに対応しており、スコアが大きいほど文字サイズも大きくなります。 図中の単語の配色や配置は、図中に単語を隙間なく詰め込むために調整されたものであり、発言における単語間の関係性を表したものではありません。
管理者への連絡
当サイトへの不具合のご指摘・改善要望等はTwitterアカウント @KokkaiSaikutsu までご連絡ください。
なお個人での管理のため、対応に時間がかかる場合があります。ご了承ください。