たとえば以下のようなデータがあったとします。1949年1月から1960年12月までの、ある飛行機の搭乗者数(人数)です。なお、これはRに組み込まれているサンプルデータで、コマンド一つで呼び出せます。
ここではARIMAという、時系列予測の中では基礎的なものですが、強力なアルゴリズムで予測をしてみます。
さて、このような形で予測ができました。1959年までの実測値を使ってモデルを学習させ、1960年以降の実測値を予測した結果です。青色の点線を赤色の実測値に重ねていますが、両者に大きな乖離はなく、おおむね予測が成功していることがわかります。
この分析を、Rならば3行で実行できます。
データはRにすでに組み込まれているものをそのまま使えるので1行、次の1行は、読み込んだデータが時系列データということをRに認識させるための準備です。ARIMAの予測自体は1行で完了します(画面では見やすさのため改行表示していますが、プログラムコードとしては1行です)。
グラフの描画をする場合は、別にコードが必要になりますが、同程度の行数の簡単なコードでグラフも描画できます。また、データを理解するための手法も手軽に利用できます。たとえば全体のトレンドを抽出すると次のようなグラフになります。
季節による一定の周期性があることも表現できます。
このグラフ化も、たった3行で実行できます。
しかもこれらの過程は全てコードとして残っています。データだけ変えて同じ分析をしたい、データを増やしたのでもう一度分析したい、そうした場合もすぐに対応可能です。
今回はRのサンプルデータを使いましたが、実際にこうした時系列のデータはたくさんあるのではないでしょうか。webサイトのPV数、店舗の来客数、株価などなど、例を挙げれば枚挙にいとまがありません。
また今回扱ったデータは200弱程度なので、もちろんExcelでも同様の分析を行うことが可能です。しかし、「これができるならもっと大きなデータに対しても同じことをやりたい!」と思ったときに確証が持てないですよね。
データ数が1万規模になると動作が重くなるかもしれないし、しかも分析の過程は再現可能な形で残っていませんから、同じ操作をやり直すにはイチから手動で実行しないといけません。
その過程でExcelが固まってしまったり、データの保存を忘れていたりしたら、分析自体を最初からやり直さないといけません。
繰り返しになりますが、Rならばこうした点に悩まされることはありません。データ分析に興味があって、Excelしか使えないのはもったいないです。この機会に「Rを使ってみる」という選択肢について少し検討してみてはいかがでしょうか。
本稿では、Rがいかに優れているかを、Excelとの対比で述べてきました。
しかし、いくらシンプルであるとはいえ、Excelを使い始めたときがそうだったように、最初はその使い方に一通り目を通してみる必要があるのも事実です。
インターネットで検索して情報を集めることも重要ですが、学び始めるにあたっては内容が体系だってまとまっている書籍から入ることをおすすめします。
ここでは、ブルーバックスの『統計ソフト「R」超入門』を紹介します。
プログラミング言語に対して苦手意識がある人も少なくないでしょう。しかし、この本の中では「Rコマンダー」というRの操作を補助するGUIツールをメインに使っています。統計理論をなぞりながらRの操作に慣れていきたい、という初学者におすすめできる内容になっています。