はじめまして。
Ptmindインターン生のもっちです。
さてこのPtengineblog、先週から再開しましたが約半年も更新が止まっていましたね。
実はインターン生でこのブログを生き返らせるというミッションが課せられています。
半年も停まっていたというこの状況、どうやって生き返らせるかということをインターン歴3週間の女子大生がふわふわした頭の中で必死に考えました。
そして、気付いてしまいました。
そもそもこのブログには「どんなユーザーがいるのだろうか」ということに。
いわゆる現状把握ですね。はい。
マーケティングでもデータ分析でも恋愛でも、どんな時でも欠かせないのがこの状況把握。
では、取り組むのはいいけど「どのようにおこなうのか」ということが次の問題としてでてきますね。
詳しい話し合いは割愛しますが、まずはGoogleアナリティクスのユーザーエクスプローラー機能を使ってみてみよう!となったので使ってみました。
そもそもユーザーエクスプローラとは、Googleアナリティクスの機能のひとつで指定した期間、サイトに入った全ユーザーのセッション・平均セッション時間・直帰率などを表示してくれる機能のことです。
また1ユーザーに着目していつどのページを見たのか、ということも調べることができます。
表示してみると、こんな感じです。
(実際の数値は伏せさせてください…)
でもこれだけだとどんなユーザーがいるのか私にはわからない…!
なのでこのユーザーエクスプローラで表示されたデータをつかって主成分分析を行うことにしました!
主成分分析とは多変量解析手法の1つで、簡単にいうと複数の項目(変数)のデータの相関などを考慮し新しい項目(変数)を作る手法のことです!
詳しい説明はこちらからどうぞ!
ということで主成分分析を使い、ユーザータイプをわけてみました!
ちなみに今回主成分分析を行うツールはこちら。
お金のない学生の味方。「R」を使用しました!
インストール先はこちら
では、ちゃっちゃっとユーザータイプを見つけてみましょう。
下記が今回の手順になります。
手順
1 データをcsvファイルに出力し、セッション・平均セッション時間・ 直帰率の項目(変数)を使う
2 主成分分析を行う
3 出力された主成分の意味づけを考える
ブログでは3の話が中心です!
ということで、出てきた数値がこちら。
でででーん。
(Rの出力結果はよみやすいようにExcelで編集しています)
ん?
こんなのいきなり見ても意味わかんない方もいらっしゃいますよね。
安心して下さい、1つずつ解説していきます。
ということで以下解説です。
まずは一番上に書いてあるPC1・PC2・PC3ですが、じつはこれ先ほど話した新しい項目なんです。
PC1は第一主成分、PC2は第二主成分、PC3は第三主成分といいます。
そして各主成分がどんな意味をもっているのか説明いしているのが下に書かれている数値になります。
ここで特に大切なのは、符号が+と-のどちらかということです。
たとえば、PC1は以下のような結果ですね。
セッションと直帰率は-、平均セッション時間が+になっています。
これは第一主成分ではセッションと直帰率は平均より低いユーザーが評価され、逆に平均セッション時間は平均より上のユーザーが評価されるということです。
なので第一主成分にはセッション回数は少ないけど、一回の平均セッション時間は平均より高く、直帰率が低いユーザーを評価している項目になります。
このことから第一主成分はたまーにサイトを訪れてくれ、訪れたときには複数の記事を
まとめて読んでくれるユーザーということになります。
次に第二主成分ですが、すべてプラスの数値になっています。
回数も時間も長いが、直帰率も高いということになります。
なので、記事単体をじっくり見てくれるユーザーということになのではないかと思います。
このようにみていくと、新しい項目(変数)がどんな意味を持っているかわかると思います。
ただ今回はPC3と新しく作られた項目(変数)は3つですが、データによってはたくさん作られてしまうこともあります。
なのでどの主成分だけ見ればいいかということを寄与率という形で選択することができます。
それがこちら。
※一番下に書いてあるCumulative Proportion(累積寄与率)の数値が、その主成分が全体の数値のどれだけを説明しているかを示しています。
今回はPC1が 0.4443と約44%、PC2が0.7640と約76%説明していることになります。
だいたい80%を含んでいるところまで見ればいいのですが、今回はPC2までにします。
なので、このブログを訪問してくれている人たちの約76%はたま~にサイトを訪れてくれ、訪れたときには複数の記事をまとめて読んでくれるユーザーか、記事単体をじっくり見てくれるユーザーか、という2つに分類することができました!
では実際にこの2つのユーザーのなかでもどんなユーザーが多いのか、などの情報がわかるのがこちらの図になります。
左下から右上に向けて伸びている黄色の線が第一主成分、その線に交差している緑色の直線が第二主成分になります。
赤い線は元の項目(変数)を示しています。
そして表示されている数字はユーザーエクスプローラで表示されるクライアントIDを私が1から振りなおしましたもの、つまり個々のユーザーになります。
この図を見てみると、実はいろいろなことが読み取れます。
わかりやすいところで行くと、セッションの赤い線上部近くにいる2・3・5・6はセッションが高く直帰率が高いユーザーということがわかります。
なので、このユーザーの行動履歴をユーザーエクスプローラーにもどって見てみると、セッションが高く、直帰率の高いユーザーはどんなページを見ているのか。ということが分かります。
また逆に直帰率も高くセッションも少なく、セッション時間が短いユーザーたちはどのページを見たのか。
ということもわかります。
今回はその詳細は伏せますが、この散布図で分かった層ごとのユーザーの違いには面白いことが多かったです。
なので今回の目的であった、半年も更新が止まっているブログに来てくれているユーザーはどんなタイプなのかということ、このようになりました!
・たまーにサイトを訪れてくれ、訪れたときには複数の記事をまとめて読んでくれるユーザー
・記事単体をじっくり見てくれそれ以外のページはあまりみてくれないユーザー
量として多いのはたまーにサイトを訪れてくれ、訪れたときには複数の記事をまとめて読んでくれるユーザーでした。
ではこのタイプのユーザーは実際どんな記事を読んだのか、ということをユーザーエクスプローラーで見ることでこのブログの細かいユーザー傾向がわかり、今後のブログの方向性を考えるためのファクトをとることができました。(詳しく書きすぎると隣の上司がやたらとうるいさいのでかけませんが>< )
ということで、以上が今回の分析になりました。
今後もアクセスデータなどを多変量解析をつかって分析していきたいと思っていますが、まだまだ勉強中なのでいい例があったらコメントなどで教えて頂けると嬉しいです^^
もっちからでしたー。
※注釈
・Standard deviation 標準偏差(そのデータのばらつきを表す)
・Proportion of Variance 寄与率(その主成分の固有値が、データの情報をどの位説明しているか)
・Cumulative Proportion 累積寄与率 (寄与率を足していったもの)