←・→のキーで記事を見る

データサイエンティスト講座

分析結果を可視化するグラフ--その用途と注意点(後編)

伊藤徹郎(ALBERT) 2014年04月03日 07時30分

 前編では基本的なグラフについて紹介してきました。後編で紹介する4種類のグラフは統計的な考え方も用いたグラフ表現です。

散布図

 散布図は2変数間の関係性を把握したいときに、絶大な効果を発揮する可視化方法です。縦軸と横軸にそれぞれの変数の量をとり、2軸の座標上にプロットします。つまり、一方の変数の値の増減が、もう一方の変数の値にどのように関係するのか一目でわかります。これによって、変数間の関係性が明らかになるというわけです。例えば、気温と売り上げ数量の関係性を知りたいと思った時に、下記のように散布図で可視化すると、その関係性が明らかとなります。


 上記の場合は気温が上昇すると売り上げ数量も上がっていく関係性があると見て取れます。2変数の関係性については相関係数という指標を求めて把握することも多いですが、散布図で表すと視覚的に把握することができるため、手早く実施したい場合にはおすすめな手法です。

箱ひげ図

 箱ひげ図は複数変数間のデータのばらつき具合を可視化するために用います。基本統計量の算出について以前、説明しましたが、それらを可視化するための手段として箱ひげ図はよく用いられています。MicrosoftのExcelにはテンプレートで箱ひげ図を作成できませんので、イメージはオープンソースの統計解析システム 「R」を用いた箱ひげ図を使っています。


 Rに搭載されているデータで最もよく使用されるirisデータ(あやめ)を箱ひげ図で可視化しました。setosa、versicolor、virginicaという3品種の「がく片」の長さのばらつき具合がこれで一目瞭然です。ひげの両端がそれぞれ最大値、最小値です。ひげよりも外にある点は外れ値としてプロットされています。

 箱の両端がそれぞれ第3四分位(全体を等分した際の75%)、第1四分位(全体を等分した際の25%)、箱の中の線が中央値を表していることで、観測データがどのようにばらついているか、他の変数と比較してどうちらばっているかを検討します。

あなたにおすすめのホワイトペーパー

ZDNet Japan Headline

エンタープライズ・コンピューティングの最前線を配信

ZDNet JapanスペシャルPR

企画特集一覧へ

ZDNet Japanクイックポール
情報システム部門の2014年度IT投資予算の動向について、昨年からどのような変化があったか教えて下さい。
過去の記事

2014年4月

  •  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
カテゴリーランキング
新着企業動向

企業動向一覧へ

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。

ITビジネス全般については、CNET Japanをご覧ください。