ヤフー株式会社
ビッグデータから見えたママの悩みと育児あるある
生後102日頃には子供をモデルに応募したくなる?
子供を出産後、旦那へのイライラがもっともつのるのは生後45日目頃、子供の指しゃぶりが気になるのは生後56日目頃、髪の毛の逆立ちが気になるのが生後61日目頃、わが子をモデルに応募したくなるのは生後102日目頃……
こんにちは、「Yahoo! JAPANビッグデータレポート」チームに所属する育児中のママです。
冒頭で紹介した育児に関するこの日数、決して適当に決めたわけではなく、きちんとビッグデータ分析の結果に基づいて導き出された日数なのです。どのような方法を用いればこのようなことがわかるのでしょうか?今回はビッグデータ分析から見えた驚きの発見を紹介いたします。
育児とは毎日何が起こるかわからず、また人によって状況がまったく異なります。もし、明日やあさってどんな悩みがやってくるか事前にわかったらどんなに楽だろうか、また、自分の育て方があっているのかどうか教えてくれる存在がいたら、と思うことがよくあります。
そんな世の多くの育児中ママに共通するであろう悩みをヤフーが持つビッグデータから解決できないだろうか? と分析を行ってみた結果、とても興味深い結果を得ることができました。
それは「育児に関連するニーズの丸ごと取得」と「育児ニーズの時系列変化の把握」です。
それぞれがいったいどのようなデータなのか、また、どのように育児の課題解決につながるのか、その話をしていきます。
データ分析について
まずはどのようなデータ分析を行ったかを解説します。今回取り組んだのはYahoo!検索の検索キーワードを用いて以下の処理を行いました。
抽出手順- ①:1年間の全検索キーワードから共起関係を抽出して関連度をスコア化する
- ②:①のデータセットを用いて育児に関するキーワードだけを抽出する
- ③:②のデータセットを用いてニーズごとにクラスタリングする
- ④:②のデータセットを用いて検索タイミングの時系列情報を付与する
関連度のスコア化とはどういうものでしょうか?あなたがもしもYahoo!検索で「北海道」と検索する機会があったとします。その場合、続けて「札幌」と「ハンバーグレシピ」、どちらを検索する可能性が高いと思いますか?ほとんどの人は北海道と札幌の強い関係性を踏まえて「札幌」と思ったはずです。
実際の検索データでも同様の傾向がもちろんあります。つまり「A」を検索した人にとって「B」や「C」というキーワードは検索されやすい、されにくいという関係性が存在するため、それをキーワード間の共起(同時出現)回数をベースとしたスコア(関連度スコア)に置き換えます。これにより、「北海道」に対して「札幌」の関連度スコアは高く、「ハンバーグレシピ」は低いといった数値化が行えるようになります。今回は2016年年間の全検索キーワードに対して集計を実施しました。
次にその莫大なデータセットから育児に関するキーワードを抽出します。抽出手法は、検索母数が大きな育児に関するキーワードをあらかじめ用意して、そこから上記データから紐づかれた育児系キーワードを派生的に収集、そこで集められた親キーワードを再び親キーワードに設定して同様のことを行い、関連度スコアと出現率によるフィルタ処理によって育児に関連する幅広い意図のキーワードを収集しデータセットを作成しました。
育児に関連するニーズの丸ごと取得
上記方法で取得された育児関連のキーワードデータはあまりに膨大な数があるため、育児にはどのようなニーズがあるのかを簡単には把握できません。そこでそれを把握するために意図の似たキーワードをまとめ上げる処理を行います。手法は自然言語処理によるクラスタリングとそれをベースとした独自のグルーピングを併用することで行いました。
実際にやってみたところ、育児に関する悩みやニーズは、分類が難しいものや複数カテゴリをまたぐ意図をもつキーワードを除くと、13の大きなカテゴリが存在することがわかりました。それぞれのカテゴリがどれぐらいのボリュームを持っているかを可視化したのが次のツリーマップです。
育児キーワード群のカテゴリツリーマップ
- 資料:
- Yahoo!検索データ
もっとも大きなカテゴリとなったのが「育児用品」関連でした。このカテゴリには子供服からおもちゃ、ベビーカーまでさまざまなアイテムキーワードが含まれています。続いて「保育・行政」関連、「How to」関連、病気・トラブル関連と続きます。How toというのは「寝かしつけの時間は?」といった育児に関する知識のことです。
そして、各カテゴリの中にまた小さなカテゴリが存在します。それがサブカテゴリです。一見小さく見えるサブカテゴリ群も中には多岐にわたる膨大なデータが格納されています。ここでは一例として「授乳」カテゴリの中をさらに詳しく開いてみましょう。
「授乳」カテゴリの中のサブカテゴリ
- 資料:
- Yahoo!検索データ
このように、ほかの各カテゴリの中にもたくさんのサブカテゴリが存在しており、育児に関連したニーズがいかに多種多様、多岐にわたっているかが全データを分類することで見えてきました。
また、このカテゴライズしたデータはさまざまな応用や活用につなげることができます。例えば「ミルク」と「母乳」のカテゴリではそのニーズにどのような違いがあるのかを比較してみましょう。ここでは共起ネットワークという手法を用いてみます。
共起ネットワークとは簡単に説明すると、あるキーワードを検索した人がよく検索するキーワードの傾向を面で把握するために、よく頻出する単語はどれか、どの単語と結びつきやすいのかを可視化したものです。実際にネットワークにして比較したのが次の図です。
「母乳」と「ミルク」に属するキーワードの共起ネットワーク比較
- 資料:
- Yahoo!検索データ
赤く塗られたネットワークは主に量や回数を表す単語がつながった固まりとなっています。しかしよく見ると両者の傾向に違いがあり、ミルクでは成長に応じた量を細かく検索していることがわかりますが、母乳は量が見えないので回数を調べる傾向にあることや、それぞれの方法特有の悩みが見てとれます。またミルクの緑色部分に注目していただきたいのですが、生後7カ月以降は量ではなく回数のネットワークが形成されています。これは離乳食に移行するにあたり回数を調整する必要が出てくるためと思われます。
他にも、両方に共通する特徴的なネットワークとして黄色く塗られたところに注目してみると、母乳はいかに保存するかということに腐心している様子がわかる一方、ミルクは外出時のテクニックに関する需要が高いことがわかります。また、母乳にしかないネットワークとして黄色で塗られたママの苦労もネットワークとして浮かび上がっています。
このように、育児に関するニーズの全データをカテゴライズするだけでも多くの発見があるのです。
育児ニーズの時系列変化
次に時系列の変化です。検索キーワードのログにはそれぞれ何時何分に検索されたか、という時間情報(タイムスタンプ)がセットになって保管されていますので、その差分を取ることで集計が可能となります。それで集計された時間情報はどれほど正確なのでしょうか? ここでは検証用として差分を測りやすい2016年実施された女子ゴルフ大会の開催日と集計データから得られた時間差分を比較してみました。
実際の大会開催日と検索時系列との差分比較例
- 資料:
- Yahoo!検索データ
結果、ほとんど差がなく高い精度で時間軸を集計できることがわかります。このデータを使えば、例えば「カレー 作り方」を検索した人はその後どういう行動を取るのか? といったことが可視化できるようにもなります。
「カレー 作り方」の検索時間を基点とした行動変化
- 資料:
- Yahoo!検索データ
では実際に育児のデータを時系列に置き換えて見ましょう。最初に紹介したツリーマップは育児に関連する1年間の全データを1枚のチャートで可視化したものですが、当然育児は赤ちゃんの成長とともにニーズも変化してきます。そこで2カ月ごとに13のカテゴリのボリュームがどう変化するかを可視化したものが次の割合グラフです。
育児キーワード群のカテゴリ割合の時系列変化
- 資料:
- Yahoo!検索データ
これをみると、出産から2カ月までは育児用品はもちろん、「ママ」関連というママとしての悩みもかなりのボリュームが発生していることが見てとれます。しかし、時間がたつにつれ育児用品やママ自身の悩みに関する検索ボリュームは少なくなり、代わりに6カ月を越えるあたりから離乳食や幼児食に関する検索が多くを占めるようになってきます。
またHow to系は1年通して満遍なくニーズが続いていることや、11~12カ月目に「風習・決まりごと」というニーズがとても増えることも見て取れます。なお、ここでのニーズのもっとも主たる要因は「1歳の誕生日」や「一升餅」、「選び取り」などに関連するキーワード群となっています。
さらにもっと細かく時系列にそってニーズが変化する様子を見てみましょう。ここでは先ほど紹介した「授乳」のサブカテゴリの「哺乳瓶」に中に所属する細かなニーズカテゴリの時系列変化を可視化してみました。
「哺乳瓶」に関するニーズ(検索量)の時系列変化
- 画像は横スクロールできます
- 資料:
- Yahoo!検索データ
赤くなっているところが検索の多い時期です。この結果を見るだけでも赤ちゃんの成長に伴い、哺乳瓶に関する悩みやニーズが変化していってる様子が奇麗に現れているのがわかります。もちろん哺乳瓶だけではなく、育児に関するすべての悩みやニーズを同様の時系列に置き換えることも可能です。
この時系列データがすごいのは、過去の蓄積を生かすことで未来をあらかじめ推測できる点です。つまり、育児が初めての人にとってはいつどのタイミングで、どのようなニーズや困ったこと、必要なものが発生するのかを過去のママたちの経験データからあらかじめ知ることができるようになるのです。
まとめ
この分析は冒頭でも紹介したとおり、リアルなママの声はもちろん、待機児童問題や少子化問題などさまざまな育児の課題が多い現代においてすこしでも育児の役に立てることがないか、初めての育児でとても不安なママの悩みを少しでも解消できないかという目的から始まりました。今回の分析により、育児には千差万別の悩みか課題があることとそれらを体系的に可視化できる可能性がみえました。今後はここから育児のアシストにつながる展開ができるように検討を行いたいと考えています。さらには地域での育児の違いや、過去と今で育児がどう変化しているのかといった分析が行えたら改めて報告します。
また今回得られたデータはコマース領域や広告領域などさまざまな分野へ応用できる可能性を秘めており、こちらの面でも新しい発見があれば続報をお届けいたします。
引き続き、Yahoo! JAPANビッグデータレポートをよろしくお願いいたします。