平均や分散、標準偏差などの基本統計量を用いてデータ分析ができるようになると、「これらのデータを使って値の予測はできないか」といった関心事を抱かれる方は少なくないかと思います。
例えば、散布図を用いて2つのデータの相関関係を調べていると、データの傾きにそって直線が引けそうに感じるときがあるかと思います。
実は、その直線は「回帰直線」と呼ばれる直線であり、冒頭で述べた「これらのデータを使って値の予測はできないか」を実現することができるものです。
本レシピでは、2種類のデータを用いた単回帰分析と呼ばれる、データ予測の基本となる手法についてPythonを用いた実践形式で説明をしていきます。
また、本レシピではなるべく難しい数式はスキップしつつ、具体例を交えて実際の現場でも活用できるよう意識しております。
単回帰分析は、2種類のデータにおいて、その関係性を数式に落とし込み将来の行動を予測することができる手法です。
単回帰分析を理解することで、蓄積されたビッグデータなどを用いて実際に将来の値を予測する事ができるようになります。
例えば「購買データ」から「顧客の興味関心度合い」と「購入単価」の2種類のデータに正の相関が見られたとき、単回帰分析を用いて「〇〇というカテゴリの商品に興味が強い顧客は、△△という商品をn個購入するだろう」といった予測を、数式を用いて予測できるようになります。
それらの予測結果を元に、マーケティング戦略を練ったり、web広告の出稿量を伸ばしたりといった判断を行うことができるようになります。
ぜひとも本レシピを通じて、単回帰分析を習得いただければと思います!