Last Updated: August 2013 -2012 -October2010 -2007. Kajiyama       [ 総合案内に戻る ]   [ 表紙に戻る ]
Technical Data presentation in R
コピペで学ぶ Rでテクニカルデータプレゼンテーション

1.基礎統計解析編


グラフィックス・リテラシ−教育:
「図学 I ・図形情報 I ・統計学」科目 修了後のコースウェア

福岡大学工学部図学教室   梶山 喜一郎


・データの可視化を体系だったスキルにするために順を追って学習する.
・統計ブームに乗っている方も先人に感謝の気持ちを.さらに,
・確かなスキルにするために,教科書・解説書を理解し,Rスクリプトで確認.

A. はじめに -統計・解析の必要を味わった後で読めばよい
  1. 大学卒業後も持続的に使えるRの世界
    (1) R言語とは -Wikipedia
    (2) Rの日本サイト国内ダウンロードサイトの使い方 -RjpWiki
    (3) Rによる統計処理 -群馬大学
    (4) Rで可能なグラフ表現法 -R Graphical Manual
    (5) データ解析言語Rによる統計的プログラミング -IBM

  2. 学んだ統計学の復習−使った教科書を再度読むだけ
    (1) 測定と尺度 Measurement and scale
    (2) 記述統計学の測度
    (3) 統計的推測 Statistical inference
    (4) 統計的仮説検定 Testing of statistical hypothesis
    (5) 正規分布,χ2分布,F分布,t分布 Distribution
  3. 統計学習支援WWWサイト−日本の大学の資源を有効に使う
    (1) 統計学の歴史ベイズ確率 -Wikipedia
    (2) 統計用語集            -岡山大学
    (3) WWWで学習しよう 統計学習リンク一覧 -香川大学
    (4) 統計解析の事例学習 -DoLStat@d 岡山理科大学
    (5) 統計学の学習システム          -群馬大学
        統計処理ソフトウェアRについてのTips
    (6) 非理工系のRによるデータ解析入門    -同志社大学
    (7) 統計解析 R の備忘録 
    (8) 心理データ解析         -中部大学
    (9) Rで心理学 効果量の計算
    (10) エクセル2007の使い方 -asahi.com
  4. 自習用データサイトあるいはR学習サイト世界の資源を有効に使う
    (1) Rに組み込みこまれた学習用データセット
    (2) 政府統計局都道府県の指標 e-State
    (3) The Data and Story Library an online library of datafiles
    (4) Research and Statistical Support University of North Texas

  5. Rで使える統計関数マニュアル
    (1) Rの基本統計関数マニュアルについて -東京工業大学
          ・R基本統計関数マニュアル pdf
    (2) Rのパッケージ中の統計で使用できる関数リスト -RjpWiki
    (3) Rの基本パッケージstats中の古典的検定関数一覧 -RjpWiki
          ・Rの古典的検定関数一覧
  6. Rの引用
    Rをあなたの著作に引用する際の著者・文献の名称は,
    R Development Core Team (2009). R: A language and environment for
    statistical computing. R Foundation for Statistical Computing,
    Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
B. Rの基本操作 −ここは嫌いでも体験する

  1. コピペ学習の仕方 -省いた時間でゆっくりと観察してください

  2. Windows版 R言語のインストールと作業フォルダの設定
    (1) R 2.9 for Windowsのダウンロードとインストール(教室は導入済)
    (2) R 3.0 for Windowsのダウンロードとインストール(2013/4 急ぐな)
    (3) Rの起動と終了
    (4) Rの初期設定 -「Rgui設定エディター」と「作業フォルダ」
        ・Win_7(32bit)編  ・Win_Vista編  ・Win_XP

    (5) 「Rコンソール」->Rエディタを使用する
    (6) パッケージの読み込みと追加インストール
    (7) Rに組み込みこまれたデータセット
    (8) ヘルプでマニュアルを参照する

    (9) 解析のための一連のR操作体験
        ・操作:データファイルの入出力
        ・操作:データセット「iris」の解析とグラフ作成

  3. Rコマンダーの基本操作 A basic-Statics GUI for R
    (1) Rコマンダー とは (Rcmdr, R Commander) -RjpWiki
    (2) Rcmdrパッケージの追加インストール
    (3) Rコマンダーの操作の手引書
    (4) Rコマンダーの起動と終了
    (5) プラグインのインストールと読み込み -RjpWiki
    (6) 解析のための一連のRコマンダー操作体験
        ・操作:データセット「iris」のグラフ作成
          インデックスプロット・箱ひげ図・ヒストグラム・円グラフ
          幹葉表示・QQプロット・ドットチャート・散布図・3次元散布図

C. データの作成・編集と保存 −エクセルで加工 コピペで取り込が楽く

  1. データフレームの新規作成
    (1) Rで使用する
    データと関数そして用語
    (2) データフレームとは
    (3) データエディタ (表シート)に直接キー入力
  2. 表形式ファイル(表計算シート)をRの内部に読み込む
    (1) 練習用データのダウンロード
    (2) Web上の表やExcelの画面コピー・クリップボード経由で読込む
      ・表のコピペがうまくいかなかったら,再度ここを理解する.
    (3) 表形式のテキストファイルを読み込む
    (4) Excel.csv ファイルを読み込む
    (5) Excel.xls ファイルを読み込む 「パッケージ」が必要
  3. Rの外部に表形式ファイル(表計算シート)を保存
    (1) テキストファイルで保存
    (2) Excel.csv ファイルで保存
    (3) Excel.xls ファイルで保存 「パッケージ」が必要

  4. データフレームの編集 ここでできる事はエクセルでできる
    1. サンプルの抽出と加工--「iris」
      a. 行番号を使いサンプルを抽出
      b. 条件式を使いサンプルを抽出
      c. 大きさでサンプルを並べ替え ソート
      d. 群・要因の水準ごとのサンプルを抽出
      e. サンプルの結合(行追加)
    2. 変数の抽出と加工--「iris」
      a. データから変数を抽出し,変数の順序を並べ替える
      b. データに新しい変数を追加
      c. 変数の結合(列追加)
      d. 数値変数をカテゴリ変数に
      e. 条件式を用い新しい変数を作成 その1 transform, merge
      f. 条件式を用い新しい変数を作成 その2 paste, gsub
      g. 条件式を用い新しい変数を作成 その3 factor
    3. データの形式の変換
      a. 「スタック」と「アンスタック」のデータ形式とデータ変換
      b. 「クロス集計表」から「スタック」形式へデータ変換
      c. 多重クロス表を「数量化V類や対応分析用」にデータ変換
      d. データの行と列の入れ替え(転置行列)

D. Rとグラフィックス
  1. グラフ作図例
    (1)
    plot()関数を使った散布図の作図体験
    (2) グラフィックス参考実例集・マニュアル -RjpWiki
       ・座標軸の形状 plot  ・箱ひげ図 boxplot  ・散布図 matplot
    (3) R Graphical Manual   -nig.ac.jp
  2. Rコマンダーによるグラフ作図
       ・参照 §B.2.(6) Rコマンダー操作:データセット「iris」のグラフ作成
    (1) インデックスプロット (2) 箱ひげ図 (3) 棒グラフ (4) 折れ線グラフ
    (5) ヒストグラム (6) 円グラフ (7) 幹葉表示 (8) QQ プロット
    (9) 散布図 (10) 平均のプロット (11) 3次元散布図 (12) グラフの保存
  3. lattice パッケージによるグラフ作図
E. クロス表とカテゴリカルデータ解析-- [測定値が質的データ・計数データ]
 ・表のコピペがうまくいかなかったら,
再度ここを理解する.
 敬意を払う人物:カール・ピアソンロナルド・フィッシャージャンポール・ベンゼクリ
  1. クロス表(分割表)を作成 A cross table/ A contingency table

    1. 量的データをカテゴリ化し二変数のクロス表を作成-「iris分析」-
    (1) 連続した数値データをカテゴリ化-「iris分析」-
    (2) カテゴリ化した変数で新しいデータフレームを作成
    (3) カテゴリ化した変数からクロス表(分割表)を作成する
    (4) グループ別クロス表(三重クロス表)をイチドキに作成
    2. 質的データから二変数のクロス表を作成
    (1) 変数がカテゴリの原表から分割表を作成
    (2) Rにデータフレームを読み込む
    (3) 変数名を使った分割表の作成
    (4) 合計欄付き 分割表の作成
    (5) 列番号を使った分割表の作成
    3. 多重クロス表:質的データから三変数のクロス表を作成
    (1) クロス集計表を「スタック」形式のデータフレームへ変換
    (2) 「スタック」形式のデータフレームから三重クロス表を作成
    (3) 三重クロス表のグラフ化
    4. 表計算シートをクリップボード経由で読み込み
    (1) 条件式を用い新しい変数を作成保存する手順
    (2) クロス表を作成保存する手順

  2. クロス表の検定と解析

    1. 二変数のクロス表-独立性の検定
    (1) 統計的仮説検定の復習
    (2) 「独立性の検定」と「一様性の検討」
    (3) 二変数の分割表の検定手法
    (4) データフレームの読み込みと確認
    (5) カイ自乗検定(χ2)検定 (Pearson's Chi-squared test)
    (6) フィッシャーの直接確率 (Fisher's Exact Test)

  3. カテゴリカルデータを対応分析 コレスポンデンス分析

    1. 二変数のクロス表を対応分析 Simple Correspondence Analysis
       ・店舗アンケートから各店舗の特徴を把握-シリウス先生の心理統計学
    2. 多重クロス表を多重対応分析 Multiple Correspondence Analysis

  4. カテゴリカルデータを決定木で予測・判別・分類 Decision Tree (回帰木)

F. 一〜二変数の要約とクロス表作成----------- [測定値が量的データ]
 ・表のコピペがうまくいかなかったら, 再度ここを理解する.
  1. 一変数の記述統計-「iris分析」-
    (1) 基本統計量(データの要約)と度数分布図を作成 Histogram
    (2) グループ別に基本統計量と度数分布図を作成
  2. 一変数の度数分布表の作成-「iris分析」-
     A frequency distribution table
    (1) table関数を使った度数分布表
    (2) 連続変数をカテゴリ化した度数分布表の作成
    (3) 相対度数(%)のある度数分布表の作成
  3. 二変数の記述統計-「iris分析」-
    (1) 2変数の散布図を作成
    (2) 複数の変数間の相関係数をイチドキに求める
    (3) グループ別の相関係数をイチドキに求める
    (4) 量的データのクロス表(分割表)を作成 -「iris分析」-
       ・ 連続した数値データをカテゴリ化する
       ・ カテゴリ化した変数で新しいデータフレームを作成
       ・ カテゴリ化した変数からクロス表を作成する

G. 相関分析と単回帰分析----------------------[測定値が量的データ]
 敬意を払う人物: 
カール・ピアソンモーリス・ケンドール

  1. ピアソンの積率相関係数と(無相関)検定-「iris分析」-

  2. 二変数の順位相関と(無相関)検定
    (1) 順位相関係数とは
    (2) スピアマンの順位相関係数
    (3) ケンドールの順位相関係数
  3. 三変数以上の順位相関と(無相関)検定
    (1) ケンドールの一致係数 W
  4. 単回帰分析と予測式の当てはめ A regression analysis
    (1) 直線相関と線形単回帰分析A simple linear regression analysis
    (2) 直線関係に置き換えられる累乗モデルと指数モデル
    (3) 曲線相関と非線形単回帰分析A nonlinear regression analysis
    (4) 自動推定する非線形モデル 累乗モデル・指数モデル
       ・漸近指数モデル・ロジスティク成長モデル・ゴンペルツ成長モデル

  5. 量的データを回帰木で予測・判別・分類 Regression Tree (決定木)

H. 平均値の差に関する検定------------------- [測定値が量的データ]
 ・表のコピペがうまくいかなかったら,
再度ここを理解する.
 敬意を払う人物: ウィリアム・ゴセット(スチューデント)ロナルド・フィッシャー

  1. 二群の平均値の差に関する検定 [t検定]---- Two Sample t-test

    1. アンスタック・データ形式
    (1) 独立な2群の平均値の差のt検定とウェルチの方法(1)
    (2) 対応のある2群の平均値の差のt検定(1)
    2. スタック・データ形式
    (3) 独立な2群の平均値の差のt検定とウェルチの方法(2)
    (4) 対応のある2群の平均値の差のt検定(2)
    3. 三群以上の平均値の差を検定をするには
    (5) 独立な3群以上の平均値の差の分散分析
    (6) 対応のある3群以上の平均値の差の分散分析

  2. 三群以上の平均値の差に関する検定[分散分析と多重比較]-ANOVA

    1. 一要因のaovによる分散分析と多重比較
    (1)
    概要 一元配置の実験データを分散分析
    (2) 一元配置の分散分析と多重比較 (対応なし・標本数が同じ)
       ・ 4人の分析者の測定技能
       ・ "iris"による,あやめの花のがく片の長さ分析(等分散でない)
       ・ "InsectSprays"による,殺虫スプレーの効果分析(等分散でない)
    (3) 一元配置の分散分析と多重比較 (対応なし・標本数が異る)
       ・ 三種類の触媒で作られた製品の製造原価比較
       ・ "chickwts"による,六種類の飼料サプリメントと鶏の体重
    (4) 一元配置の分散分析と多重比較 (対応あり・標本数が同じ)
       ・ 測定装置四台の分析力
       ・ 三教科の試験の平均値の検定
       ・ "iris"による,あやめ「setosa」の4部位の形状分析 (等分散でない)

    2. 一元配置のmanova多変量分散分析と多重比較 (対応あり・標本数が同じ)
       ・ 概要 多変量分散分析
       ・ "iris"による,あやめの花の形状分析 (多変量)
       ・ "Egyptian"による,古代エジプト人頭蓋骨の年代分析 (多変量)

    3. 二要因のaovによる分散分析と多重比較
    (1) 概要 二元配置の実験データを分散分析
       ・ 二元配置の実験データを分散分析 21-2
    (2) 二元配置を分散分析 (対応なしX対応なし・標本数は1) (多重比較・交互作用なし)
       ・ 原料4種類,反応温度5種類での収率分析 (多重比較・交互作用なし)
    (3) 二元配置を分散分析 (対応なしX対応なし・標本数が同じ)
       ・ 成型温度4種類と触媒量3種類での強度分析 (多重比較・交互作用なし)
       ・ "weightgain"による,ラットの餌と体重増加の分析 (多重比較・交互作用なし)
       ・ "ToothGrowth"による,サプリメントによるモルモットの歯の成長 (多重比較・交互作用あり)
    (4) 二元配置を分散分析 (対応なしX対応なし・標本数が異る)
       ・ "foster"による,ラット親子の遺伝子型と子供の体重分析 (多重比較・交互作用なし)

    4. 三要因のaovによる分散分析
    (1) 概要 三元配置(多元配置)の実験データを分散分析
    (2) 三元配置を分散分析 (対応なしXなしXなし・標本数は1)
       ・ 触媒3種類,触媒使用量3種類,反応温度3種類での収量分析 (多重比較・交互作用あり)
    (3) 三元配置を分散分析 (対応なしXなしXなし・標本数が同じ)
       ・ LED政党に対する好感度分析 (多重比較・交互作用あり)
       ・ 触媒3種類,触媒使用量3種類,反応温度3種類での収量分析 (交互作用あり)

    5. 分散分析中級編へ・自習教材で練習編 統計処理のスキルを確かなものにするために,
      教科書・解説書の内容を理解し,結果をRスクリプトで実行確認する.

[ 先頭へ戻る ]   [ 総合案内に戻る ]