読者です 読者をやめる 読者になる 読者になる

MATHGRAM

主に数学とプログラミング、時々趣味について。

matplotlib使いづらくない?plotlyで可視化しようよ

pythonでグラフを可視化する時,matplotlib使いづらくないですか?覚えにくいし,毎回ググってる気がします.

あとデザインもダサいので全然好きになれません.(デザインに関してはseabornを使えば綺麗ですが,結局matpotlibで書くことになるので覚えづらいことには変わりないです・・・)

ただしmatplotlib画像の表示には強いです.そういう時は僕も使います.

プロmatplotliberの方がこの記事を見てくださって,「お前は何もわかっていない.こんなに素晴らしくグラフをかけるんじゃ」って言われたら素直に土下座します.煽り気味のタイトルで本当に申し訳ないです.

そんなこんなで今回は,割と覚えやすくてデザインもよく,3Dの作図にも強い可視化ライブラリ,plotlyを紹介します.

いきなりですがplotlyではこんな作図ができます.

Note: おそらくスマホではうまく表示されませんのでPCで確認お願いします!

ご覧の通り,マウスホバーで詳細を表示できたり,グラフを動かせたり3Dの作図もかなりいい感じにできるのでみなさんも使ってみてください.

アジェンダ

  1. Usage
  2. Basic Charts
    1. Scatter Charts (散布図)
    2. Line Charts (折れ線グラフ)
    3. Bar Charts (棒グラフ)
  3. Statistical and Seaborn-style Charts
    1. Error Bars (誤差付き折れ線グラフ)
    2. Box Plots (箱ひげ図)
    3. Histograms (ヒストグラム)
    4. 2d Histograms (二次元ヒストグラム)
    5. 2d Density Plots
  4. Scientific Charts
    1. Heatmaps
    2. Dendrograms (階層クラスタ)
  5. 実践(暇できたら適当にやっていきます.)

目次に書いたもの以外でもたくさん機能はあるのですが,あんまり使わなそうだなぁと個人的に思ったものは紹介していません.DocumentにGoです.

また最後に実践編として分析例をいくつか載せていく予定です.実践編は随時追加予定なので自分のやりたい分析と近いものがあれば参考にしてみてください.

最後に注意事項.
以下で表示しているグラフは全て画像なので,動かせないので注意してください

もちろんみなさんのローカル環境ではグリグリ動かせるグラフができますのでご安心を.

あと最後の最後におまけなんですが,atomhydrogenを使えばatom内で分析がゴリゴリできます.

f:id:ket-30:20170527212818p:plain

実は僕jupyterもそこまで好きじゃないんで,同士がいたら使ってみてくださいね.

1. Usage

まずはinstall.pipで簡単にいけます.

$ pip install plotly

この記事を見ている多くの方は既にinstallしていると思いますが,pandasやらjupyterやらまぁその辺は入れといてください.

※ ここから下は,plotlyの基本的な書き方の説明です.コードを読む方が早いって方は読まなくて大丈夫です.

さて肝心の作図の方法ですが,だいたいのグラフは以下の流れで作成できます.

  1. オフラインで動くように設定する.
  2. traceを作成する.
  3. layoutを定義する.
  4. iplot, もしくはplotで作図する.

1個ずつ言葉を確認していきましょう.

まず結構重要なオフラインの設定です.

plotlyはアカウントを作って,サーバー上にグラフを保存することができます.一番最初に掲載した,3Dの動くグラフもサーバー上に保存されているグラフをお借りしているものです.

しかし僕の場合はオフラインで事足ります.というかほとんどのユーザーはオフラインで満足なはず.ですので以下のようにimportしましょう.

import plotly.offline as offline
offline.init_notebook_mode()

ここの仕組みについてはあまり考える必要ないと思います.僕も知りません.

お次はtraceです.

traceは作図で一番重要なデータや作図方法の情報が入ったものです.具体的な例を示します.

# 注意: 色々省いているのでこれだけでは動きません! 
import plotly.offline as offline
import plotly.graph_objs as go

trace = go.Scatter(
    x = np.array(setosa[columns[1]]),
    y = np.array(setosa[columns[2]]),
    name = "setosa",
    mode = "markers",
    marker = dict(size=10, color="rgba(255, 0, 255, 0.5)"))

ここではScatter(散布図)を使いtraceを作っています.見てわかるように,この時点でxyなどにデータを与えています.また点の大きさや色なども指定していますね.plotlyではこのtraceを基本単位として扱います.

次はlayoutについて.

先ほどはデータ点そのものについて色や大きさなどを指定しました.layoutではグラフのタイトルや軸の名前など,ひとつ粒度の大きい部分のデザインを定義していきます.具体的な例は以下です.

layout = go.Layout(
    title='Iris sepal length-width',
    xaxis=dict(title='sepal legth(cm)'),
    yaxis=dict(title='sepal width(cm)'),
    showlegend=True)

最後にiplotです. iplotplotの違いはjupyter内で作図をするかどうかの違いなので,基本的にiplotを使います.

先ほど作った,tracelayoutを辞書で囲んであげてiplotします.ちなみに辞書で情報を整理されたものを,plotlyではfigureと呼んでいるみたいです.

fig = dict(data=data, layout=layout)
offline.iplot(fig, filename="example")

以上が主な作図方法の流れです.

2. Basic Charts

2.1 Scatter Charts (散布図)

Simple Scatter Plots

散布図です.1個目なのでIrisデータ使いましょう.

まずはラベルなしでplotしてみます. 教師なし学習とかを想像しながら見てくださいね.

グラフはこんな感じになります. f:id:ket-30:20170521153357p:plain

サンプルコード

Usageでも紹介した通り,

  1. traceを作成する.
  2. layoutを定義する.
  3. iplot, もしくはplotで作図.
    の流れです.

Style Scatter Plots

次はラベルつきでplotしてみます. 教師データを意識してください.

f:id:ket-30:20170521160938p:plain

versiclorvirginicaがガッツリ混ざっていますね.3種類に分類するとき,この特徴量だけでは足りないことが見て取れます.

サンプルコード

Usageでも紹介した通り,

  1. traceを作成する.
  2. layoutを定義する.
  3. iplot, もしくはplotで作図.
    の流れです.

2.2 Line Charts (折れ線グラフ)

折れ線グラフは時系列データを扱うときに使います.
基本的には散布図と同様にScatterを使い,modelineを与えるだけです.

f:id:ket-30:20170521162955p:plain

サンプルコード

Usageでも紹介した通り,

  1. traceを作成する.
  2. layoutを定義する.
  3. iplot, もしくはplotで作図.
    の流れです.

2.3 Bar Charts (棒グラフ)

棒グラフはカテゴリカル分布の作図や,
それぞれのクラスに属するデータ数を可視化するときに使います.

以下の例では,手書き数字データセットのdigitsを用いてそれぞれの数字にいくつのデータがあるか調べています.

f:id:ket-30:20170521172122p:plain

今回の例ではほとんど同数なので問題ありませんが,
データ数に偏りがあった場合は重み付けなどしないといけませんからね.
この棒グラフの可視化も分析には重要なstepです.

サンプルコード

Usageでも紹介した通り,

  1. traceを作成する.
  2. layoutを定義する.
  3. iplot, もしくはplotで作図.
    の流れです.

3. Statistical and Seaborn-style Charts

3.1 Error Bars

Error Barsとは誤差付き折れ線グラフのことです.ここで紹介しているのは厳密に言うとBasic Continuous Error Barsですが,まあ気にしないでください.多分こっちの方が使います.

使いどころはベイズ線形回帰などがパッと思いつくところです.ベイズ線形回帰だと確率が見えないから微妙かな.まぁいつか何かで実践して載せるつもりです.いつかね!

以下の図とサンプルコードは本家のDocumentをoffline ver.に書き換えただけのほぼ同じものです.

f:id:ket-30:20170522235157p:plain

サンプルコード

  1. traceを作成する.
  2. layoutを定義する.
  3. iplot, もしくはplotで作図.
    の流れです.

3.2 Box Plots (箱ひげ図)

有名な図ですけど,自分で作図したことはほとんどないです.

これも本家のDocumentをoffline に書き換えただけです.申し訳ない.

f:id:ket-30:20170523000145p:plain

サンプルコード

  1. traceを作成する.
  2. layoutを定義する.
  3. iplot, もしくはplotで作図.
    の流れです.

3.3 Histograms

きました,定番のヒストグラムです.めっちゃ使います.

棒グラフと似てますけど違いますからねー.

まずは正規分布から適当にデータをサンプリングして最もシンプルなヒストグラムを生成してみましょう.

こんな感じになります.

f:id:ket-30:20170523002714p:plain

若干きもいヒストグラムになっちゃいました.

サンプルコード

import plotly.offline as offline
import plotly.graph_objs as go

import numpy as np

x = np.random.randn(500)
data = [go.Histogram(x=x)]

offline.iplot(data, filename='basic histogram')

しかし,分析しているときは何かしらのデータを比較していることも多いですよね.

1つのデータごとに1つずつヒストグラムを作るのはダサいです.

ってことで多分こういうグラフの方が一般的に使うのかなと思います.

f:id:ket-30:20170523004712p:plain

若干ずらして表示してくれるので見やすいですね.

サンプルコード

3.4 2d Histgrams

2つのヒストグラムを使って作図します.次の図は2次元正規分布を無理やり離散に書き換えたものと考えるとわかりやすいかもしれません.

f:id:ket-30:20170527174157p:plain

カウントした総数で正規化すればこのままの状態で確率分布になります.

こういうグラフ見てると周辺化したくなってきますよね.

サンプルコード

3.5 2d Density Plots

2D Histogramと似てますが,こちらは連続データを扱うときに使います.

irisデータに含まれるsetosaのsepal lengthとsepal widthを使って分布を確認してみましょう.

f:id:ket-30:20170521202709p:plain

ちょっとデータが少ないですね.しかもこの多次元データは2次元正規分布に従うというより,正の相関を持ったデータっぽいですね.

多次元正規分布の作図として適してないかもしれませんが,まぁこういうことも作図して初めてわかるときもあるよってことで許してください.

サンプルコード

4 Scientific Charts

4.1 Heatmaps

お次はヒートマップです.3種類の変数の関係性を見たいときに使います. Qiitaのこちらの記事がseabornに含まれているわかりやすいデータを用いているので,こちらと同様にグラフを作ってみましょう.

f:id:ket-30:20170527163923p:plain

色の濃さは乗客数を表しているので,乗客数と年月の相関を確認することができます.パッと見ただけで,12月は帰省などで多いのかな?や,1955年付近には何があったのだろう?と分析の目処を立てることができますね.

また模様の違いがはっきり出ている方が,その変数は特徴量として大きな情報を持っていると判断することもできます.つまり特徴量選択の際にも使うことができます.

サンプルコード

4.2 Dendrograms

主に階層的クラスタリングで使うDendrograms,いわゆる系統樹の紹介です.階層的クラスタリングってなんやねんって方は,こちらを参考にして見てください.

ヒートマップと組み合わせて用いることが多いのですが,そこに関してはseabornの方が簡単にできるような気がしてます.とりあえずここで紹介するのは基本的なDendrogramsってことで許してください.

一応階層クラスタリングを簡単に説明すると,それぞれのデータごとに"キョリ"を計算し,近いものから同じグループとして結合していく手法です."キョリ"の計算方法は色々あるので,それは別の記事で書こうかと.できたらリンク貼りますねー.

結果的にはこんな図ができます.

f:id:ket-30:20170527173110p:plain

サンプルコード

系統樹figure_factoryを用いて作図するのですが,Layoutを扱う際に,若干の注意が必要です.コメントで書いておきましたので,そちらを参考にして見てください.

実践編

暇できたら書く

まとめ

少なくともmatplotlibよりは覚えやすいし,デザイン的にかっこいいグラフが作れると僕は思っています.

またplotlyの真髄は3Dの作図なので,3Dグラフのまとめもすぐに書きますね.

以上です.