2019 4/11 twitterリンク追記
2020 3/2 関連リンク追加
近年、いくつかのグループが、データの要約ではなく実際のデータをグラフで表示することを提唱している[ref.1-4]。生データは、ヒストグラムやドットプロットなど、さまざまな方法で視覚化できる。データ解釈を補助するにはデータ要約が表示されてもよい。さらに、95%信頼区間(95CIs)が与えられている場合、異なるカテゴリー/条件の直接比較は「視覚的推論」によって行うことができる[ref.5,6]。
データとその要約を引き出すために、いくつかの市販のソフトウェアパッケージが利用可能である。しかしながら、理想的には、そのようなツールはオープンソースで、自由に利用可能で、そしてユーザによる貢献または修正を可能にするべきである。生データと要約の組み合わせをプロットするための無料のオープンソースWebベースアプリケーションの一例はBoxPlotR(http://shiny.chemgrid.org/boxplotr/)である。 このWebベースのアプリは非常によく引用されている論文[ref.7 link]に記載されている。その人気は、publication品質のデータ視覚化を生成する使いやすいアプリケーションに対する要求を反映している。ただし、この人気のあるオンラインツールはデータの要約としてボックスプロットに偏っており、データと要約の組み合わせ表示をカスタマイズするためのオプションはほとんどない。さらに、プロットは外観がかなりベーシックになっている。
Rのパッケージggplot2を使用すると、最先端のデータの視覚化が可能になる。これは、「grammar of graphics」のアイデアを使用して、複数のデータ層を使用してグラフィックを生成する[ref.8]。マルチレイヤーアプローチにより、個々のコンポーネントからグラフを作成することができる。各コンポーネントは個別に調整できる。データレイヤーに透明度を適用するオプションは、柔軟性を増す。それでも、ggplot2によって提供される高品質のデータ視覚化には、コーディングスキルときちんとしたデータの概念を理解することが必要になる[ref.9]。
生データの統計サマリーを伴った最先端のデータ視覚化方法を民主化するために、PlotsOfDataと名付けたWebツールを作成した。 このWebツールは通常のスプレッドシート(ワイド)formatおよびtidy data formatでデータを処理し、ggplot2を使用してグラフを作成する。PlotsOfDataを使ってグラフを作成するのにコーディングスキルは必要なく、ggplot2によって提供される高品質のデータ視覚化は誰にでも利用できる。
PlotsOfDataはhttps://huygens.science.uva.nl/PlotsOfData/でオンラインで利用できる。 アプリはshinyパッケージを使用し、R(https://www.r-project.org)とRstudio(https://www.rstudio.com)を使用して、Rで書かれている。 いくつかの無料で入手可能なパッケージ(shiny、ggplot2、dplyr、tidyr、readr、magrittr、ggbeeswarm、readxl、DT)を使う。 現在のバージョン(v1.0.5)のソースコードはzenodoにアーカイブされている:https://doi.org/10.5281/zenodo.2582567。
PlotsOfData R / shinyスクリプトをGithub(https://github.com/JoachimGoedhart/PlotsOfData)からダウンロードすると、WebアプリケーションをRまたはRstudioから起動してオフラインで使用できる。
ブログ
Leaving the bar in five steps
Posted by Joachim Goedhart on March 24th, 2017
Leaving the bar in five steps - the Node
Goedhartさんのブログより転載
動画
PlotsOfData: basic functions
使い方
ここではオンラインでの流れを簡単に説明する。
https://huygens.science.uva.nl/PlotsOfData/ にアクセスする。
左のメニューのUpload Fileからデータをアップロードする。
以下のformatに対応している。
ここではexampleファイル1を使う。
3列 x 100行程度の行列ファイルになっている。1行目が名前で、"B_lo"、"A_hl"、"C_med"がある(空白や特殊文字は避ける)。
plotのタブに切り替えると入力データが瞬時にグラフにplotされ、データが視覚化される。
データのオフセット(wiki)は4種類から選べる。
擬似ランダム
ランダム
None (Stripes)
None(データ数が少ない時に使う)
統計に関する情報もその場で視覚化できる。Statisticsメニューから選択する。
中央値
平均値
ボックスプロット(wiki)
バイオリンプロット(wiki)
バイオリンプロットなら箱ひげ図の情報に加え、データ分布の形状もわかる。ピークが複数あるデータセットにも有効。
95%信頼区間(95CIs)
Order of the conditionsからはサンプルの順番を変更できる。
A、B、Cの順にした。
Plot Layoutからレイアウトを変更できる。
時計回りに90度
グリッドラインを消し、縦軸をlogスケールに変更
Use color for the dataでプロットにカラーをアサイン
色はColourから変更する。
Rの対応範囲内で、ユーザー定義の色に変更することも可能。
16進カラーでも指定できる。
Labels/captionsからはタイトル名追加、font size変更などを実行できる。
最後に図のサイズを指定する。作成した図はpngかpdfでダウンロードできる。
Data Summaryタブからは表形式でデータを要約できる。
引用
PlotsOfData—A web app for visualizing data together with their summaries
Marten Postma, Joachim Goedhart
PLOS Biology March 27, 2019
関連