(cache)「留学アピールは逆効果だった……」自己PRデータを全力で自然言語処理してみた

外資・日系トップ企業を目指す学生のための就職活動サイト「外資就活ドットコム」

3

「留学アピールは逆効果だった……」自己PRデータを全力で自然言語処理してみた


 

「チーム」を必ず盛り込め

こんにちは、外資就活 編集部です。

外資就活ドットコムでは、より有益な情報を就活生にお届けすべく、これまで当サイトに集まったデータの分析に取り組んでいます。

今回は就活生なら誰もが気になる「どのような自己PRが人事担当者の目に留まりやすいのか」をデータ分析の観点から見てみました。

その結果として得られた知見は以下の通りです。

・スカウトされた自己PRは話題が整理され、際立っている
・スカウトされた自己PRに多い単語は「チーム」「サークル」「インターン」
・スカウトされなかった自己PRに多い単語は「留学」

インターンや本選考に向けてエントリーシート(ES)の中身を練っている就活生の参考となれば幸いです。

スカウト用自己PRを自然言語処理

今回分析に用いたデータは以下の通りです。

■外資就活のサービス「Premiumスカウト」に記入された自己PR
■対象のユーザー
 ➢現在、または卒業時に学部生
 ➢日本の大学に在学中

「Premiumスカウト」は優良企業が優秀な学生に声をかけるサービスです。企業は学生が書いた自己PRを基に、スカウトするかどうかを判断します。

自己PR欄に書く内容は汎用的にESなどに応用できる内容となっており、今回はこの自己PR欄のデータを分析することで「良い自己PRとは何か」とは何かを探ることとしました。
※分析では個人の特定ができないようマスキングをするなど、個人情報の管理は厳重に行っております。

また、今回の分析手法には自然言語処理を用いました。

自然言語処理とは我々人間が通常使用している言語(日本語や英語など)をコンピュータに処理させて分析する技術となります。

それでは早速分析に入っていきましょう。

こんな自己PRは嫌だ~複数の話題がごちゃっと混在している

まず、自己PRの中に登場する単語がどの単語とよく一緒に使われているかを見ていきます。自己PRがどういう「文脈」で書かれているかを解析するイメージです。

その手法として、今回は単語ネットワークを作成しました。単語ネットワークとは、「同じ自己PRに一緒に出てきやすい(共起関係にある)単語」を線で結んで表示したものです。共起関係には単語のTF-IDF値ベクトルのコサイン類似度を使用しました。

なお、単語のTF-IDF値とは、ある文書でその単語がどれくらい重要か、を表す値です。また、コサイン類似度とは、ある二つのベクトルの内積を0~1に正規化した値で、1に近いほどそれらのベクトルが似ていることを示します。今回は自己PRごとに単語のTF-IDF値を算出して単語のTF-IDFベクトルを作成し、全ての単語同士のコサイン類似度を計算しています。

この結果得た図は以下です。

【↓スカウトされたユーザーの自己PRの単語ネットワーク】

【↓スカウトを受けなかったユーザーの自己PRの単語ネットワーク】

どちらのネットワークも、「チーム」と「メンバー」、また「留学」と「英語」など、一緒に出てきやすい単語がつながっていることが分かります。このように、処理の結果として見えてくる単語からデータの特徴を分析するのが自然言語処理の代表的な手法となります。

そして2つのネットワークの違いに着目すると、スカウトを受けた自己PRはなんとなくばらばらで、スカウトを受けていない自己PRは一つにまとまっている印象を受けます。

これはどういう違いであるかを検証するため、ここでは「ネットワーク分析」という手法を用います。ネットワーク分析とは、このようなネットワークの特徴を指標化し、定量的に評価するために使用されるものです。例えばネットワークの密度や、どの単語が中心にあるかなどを調べることで、そのネットワークの特徴を調べます。

今回の場合、ネットワークのばらつき具合の差という直感を定量的に評価するために、「べき指数」と「クラスタリング係数」を見ることにしました。べき指数はどれだけネットワークがハブに集まっているか、つまり特定の一つの頂点に他の頂点がどの程度集まっているかを示し、クラスタリング係数はネットワーク全体の密度を見るものです。

それぞれの数値は以下となっています。

この結果、やはりスカウトされるPRのネットワークは密度が低く、またハブに集まっている傾向が少ないことが分かりました。これはどういうことを示しているかというと、スカウトされた自己PRは話題が整理され、際立っているのではないかと我々は考えました。

逆にスカウトされなかった自己PRはさまざまな話題が混在しているということが考えられます。

これまでの分析結果から、ESなどで自己PRを書くに当たっては、話題を整理して論理的に記載し、読みやすさに特にこだわるべきであるということが分かります。これは、読み手である人事担当者の立場で考えれば当然のことといえるかもしれません。今回はそれが定量的に、可視化された形で示すことができました。

「留学」はむしろ書かない方がいい?~良い自己PRと悪い自己PRの違いとは

次に、自己PRに使用されている単語にどのようなものが多いかを見ていきます。

以下の表は、自己PRに利用されている名詞の登場回数のランキングの表です。

※本記事中の表中の「Rate」は、「対象の単語の出現回数÷全ての単語の出現回数の和」です。

これを見ると、留学やチーム(での活動経験)など、直観的に自己PRでよく使用されるであろう単語が上位にきていることが分かります。

では、これをスカウトされた自己PRと(残念ながら)スカウトされなかった自己PRに分けて見てみます。なお、この分析に当たって、利用するユーザーの大学の種類と数は同じになるようにランダムに抽出したほか、同じ自己PRに複数回登場する単語は重複して数えないようにしました。

結果は以下の表です。

ここでそれぞれの上位の単語を見てみると、なんとなくスカウトされる人は「チーム」という単語が出て来やすく、スカウトを受けなかった人は「留学」という単語が自己PRに出て来やすいということが見て取れます。

しかし、このままでは“なんとなく”の分析で終わってしまうため、今回は検定を行います。

検定手法にはカイ二乗検定を用いました。カイ二乗検定の説明のため、まず例として以下のようなクロス表を用意しました(表中の数値も例です)。

上の表では縦軸に「インターン」という単語を自己PRに書いたかどうかを、横軸にスカウトされたかどうかを置き、それぞれのカテゴリに属する人数を示しています。表の中身を見てみると、スカウトされた自己PRに「インターン」が入っていた割合は200/(150+200)=57%、スカウトされなかった自己PRに入っていた割合は100/(100+300)=25%となっており、なんとなくスカウトされた方に「インターン」は多そうです。この“なんとなく”を数値的に示すために、表を元にカイ二乗値(算出方法は省きます)からp値を求め、有意水準(今回は5%)と比較することで統計的に割合の違いを分析するものがカイ二乗検定となります。

この割合の差が有意であり、加えてスカウトされた自己PRに「インターン」が多ければ、(この例においては)スカウトされる人ほど「インターン」という単語を使っている、ということがいえそうです。

(ここで、インターンという単語を書けばスカウトされる確率が高まるとは必ずしも言えないことに注意してください。参照:相関関係と因果関係)

ここでは、スカウトされたユーザーの自己PRの単語出現頻度上位15単語についてカイ二乗検定を行いました。これらの単語について、スカウトされたかどうかで有意に差があるかどうかの指標であるp値を算出します。有意水準が5%としたときに、p値が0.05以下ならスカウトとその単語の出現に関係があると言えそうです(より正確には「『インターン』という単語とスカウトに関係がないという帰無仮説が棄却されます」)。

結果は以下の通りです。

この結果、「チーム」「サークル」「インターン」「留学」という単語において、スカウトの有無と有意に関係があることが分かりました。このうち、「チーム」「サークル」「インターン」の3単語はスカウトされた人に多く、「留学」という単語はスカウトされなかった人に多い傾向があります。つまり、スカウトされた人ほど「チーム」「サークル」「インターン」という単語を有意に多く使っており、スカウトされなかった人ほど「留学」という単語を有意に多く使っていることが分かりました。

ここから、
・チーム活動やインターン経験のアピールは効果がありそう
・留学経験は効果がない、または逆効果である可能性がある

ということがいえると考えられます(※あくまで「Premiumスカウト」内での分析結果であり、就職活動全体に当てはまるかの保証はできかねます)。

おわりに

いかがでしたでしょうか。

以上、今回は就活データ分析の一環として、自己PRに対して自然言語処理の分析を行ってみました。あくまで当サイトの「Premiumスカウト」に記入された自己PRが分析対象でしたが、これで得られた知見は実際のESや、もしかすると面接などで話す内容にも応用できるのかもしれません。

皆様の参考になれば幸いです。

マッキンゼー ゴールドマン 三菱商事
P&G アクセンチュア
内定攻略 会員限定公開

トップ企業内定者は必ず利用する外資就活ドットコム


外資就活ドットコムに会員登録すると、様々な就職支援サービスをご利用いただけます。現在、会員の約7割が東大・京大・慶応・早稲田・東工大・一橋大などの上位校の学生です

新規会員登録

外資就活ドットコムに会員登録すると、様々な就職支援サービスをご利用いただけます。現在、会員の約7割が東大・京大・慶応・早稲田・東工大・一橋大などの上位校の学生です

新規会員登録

会員登録してすべてのコンテンツを見る

1分で会員登録(無料)