Last Updated: August 2013 -2012 -October2010 -2007. Kajiyama [
総合案内に戻る
] [
表紙に戻る
]
Technical Data presentation in R
コピペで学ぶ
Rでテクニカルデータプレゼンテーション
1.基礎統計解析編
グラフィックス・リテラシ−教育:
「図学 I ・図形情報 I ・統計学」科目 修了後のコースウェア
福岡大学工学部図学教室 梶山 喜一郎
・データの可視化を体系だったスキルにするために順を追って学習する.
・統計ブームに乗っている方も先人に感謝の気持ちを.さらに,
・確かなスキルにするために,教科書・解説書を理解し,Rスクリプトで確認.
A. はじめに
-統計・解析の必要を味わった後で読めばよい
大学卒業後も持続的に使えるRの世界
(1)
R言語
とは -Wikipedia
(2) Rの
日本サイト
と
国内ダウンロードサイト
の使い方 -RjpWiki
(3) Rによる
統計処理
-群馬大学
(4) Rで可能な
グラフ表現法
-R Graphical Manual
(5)
データ解析言語R
による統計的プログラミング -IBM
学んだ統計学の復習
−使った教科書を再度読むだけ
(1)
測定と尺度
Measurement and scale
(2) 記述統計学の測度
(3)
統計的推測
Statistical inference
(4)
統計的仮説検定
Testing of statistical hypothesis
(5) 正規分布,χ
2
分布,F分布,t分布 Distribution
統計学習支援WWWサイト
−日本の大学の資源を有効に使う
(1)
統計学の歴史
・
ベイズ確率
-Wikipedia
(2) 統計
用語集
-岡山大学
(3) WWWで学習しよう
統計学習リンク一覧
-香川大学
(4) 統計解析の
事例学習
-DoLStat
@
d 岡山理科大学
(5) 統計学の
学習システム
-群馬大学
統計処理ソフトウェア
RについてのTips
(6) 非理工系のRによる
データ解析入門
-同志社大学
(7) 統計解析 R の
備忘録
(8)
心理データ解析
-中部大学
(9)
Rで心理学
効果量の計算
(10) エクセル2007の
使い方
-asahi.com
自習用データサイトあるいはR学習サイト
世界の資源を有効に使う
(1) Rに組み込みこまれた
学習用データセット
(2) 政府統計局
都道府県の指標
e-State
(3)
The Data and Story Library
an online library of datafiles
(4)
Research and Statistical Support
University of North Texas
Rで使える統計関数マニュアル
(1) Rの基本統計
関数マニュアルについて
-東京工業大学
・R基本統計
関数マニュアル
pdf
(2) Rのパッケージ中の
統計で使用できる関数リスト
-RjpWiki
(3) Rの基本パッケージstats中の
古典的検定関数一覧
-RjpWiki
・Rの
古典的検定関数一覧
Rの引用
Rをあなたの著作に引用する際の著者・文献の名称は,
R Development Core Team (2009). R: A language and environment for
statistical computing. R Foundation for Statistical Computing,
Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
B. Rの基本操作
−ここは嫌いでも体験する
コピペ学習の
仕方
-省いた時間でゆっくりと観察してください
Windows版 R言語のインストールと作業フォルダの設定
(1) R 2.9 for Windowsの
ダウンロードとインストール
(教室は導入済)
(2) R 3.0 for Windowsの
ダウンロードとインストール
(2013/4 急ぐな)
(3) Rの
起動と終了
(4) Rの
初期設定
-「Rgui設定エディター」と「作業フォルダ」
・
Win_7(32bit)
編 ・
Win_Vista
編 ・
Win_XP
編
(5) 「Rコンソール」->
Rエディタ
を使用する
(6)
パッケージ
の読み込みと追加インストール
(7) Rに組み込みこまれた
データセット
(8)
ヘルプ
でマニュアルを参照する
(9) 解析のための一連のR操作体験
・操作:
データファイル
の入出力
・操作:データセット
「iris」の解析とグラフ作成
Rコマンダーの基本操作
A basic-Statics GUI for R
(1)
Rコマンダー
とは (Rcmdr, R Commander) -RjpWiki
(2) Rcmdrパッケージの
追加インストール
(3) Rコマンダーの
操作の手引書
(4) Rコマンダーの
起動と終了
(5)
プラグイン
のインストールと読み込み -RjpWiki
(6) 解析のための一連のRコマンダー操作体験
・操作:データセット
「iris」のグラフ作成
インデックスプロット・箱ひげ図・ヒストグラム・円グラフ
幹葉表示・QQプロット・ドットチャート・散布図・3次元散布図
C. データの作成・編集と保存
−エクセルで加工 コピペで取り込が楽く
データフレームの新規作成
(1) Rで使用する
データと関数そして用語
(2)
データフレームとは
(3)
データエディタ (表シート)
に直接キー入力
表形式ファイル(表計算シート)をRの内部に読み込む
(1)
練習用データ
のダウンロード
(2)
Web上の表やExcelの画面
を
コピー・クリップボード経由
で読込む
・表のコピペがうまくいかなかったら,再度ここを理解する.
(3)
表形式のテキストファイル
を読み込む
(4)
Excel.csv ファイル
を読み込む
(5)
Excel.xls ファイル
を読み込む 「パッケージ」が必要
Rの外部に表形式ファイル(表計算シート)を保存
(1)
テキストファイル
で保存
(2)
Excel.csv ファイル
で保存
(3)
Excel.xls ファイル
で保存 「パッケージ」が必要
データフレームの編集
ここでできる事はエクセルでできる
1. サンプルの抽出と加工
--「iris」
a.
行番号
を使いサンプルを抽出
b.
条件式
を使いサンプルを抽出
c.
大きさ
でサンプルを並べ替え ソート
d.
群・要因の水準
ごとのサンプルを抽出
e.
サンプルの結合(
行追加
)
2. 変数の抽出と加工
--「iris」
a.
データから変数を抽出し,変数の順序を並べ替える
b.
データに新しい変数を追加
c.
変数の結合(
列追加
)
d.
数値変数をカテゴリ変数に
e.
条件式を用い新しい変数を作成
その1 transform, merge
f.
条件式を用い新しい変数を作成
その2 paste, gsub
g.
条件式を用い新しい変数を作成
その3 factor
3. データの形式の変換
a. 「
スタック
」と「
アンスタック
」のデータ形式と
データ変換
b. 「クロス集計表」から「スタック」形式へ
データ変換
c. 多重クロス表を「数量化V類や対応分析用」に
データ変換
d. データの
行と列の入れ替え
(
転置行列
)
D. Rとグラフィックス
グラフ作図例
(1)
plot()関数
を使った散布図の作図体験
(2) グラフィックス
参考実例集・マニュアル
-RjpWiki
・
座標軸の形状
plot ・
箱ひげ図
boxplot ・
散布図
matplot
(3)
R Graphical Manual
-nig.ac.jp
Rコマンダーによるグラフ作図
・参照 §B.2.(6)
Rコマンダー操作
:データセット「iris」のグラフ作成
(1) インデックスプロット (2) 箱ひげ図 (3) 棒グラフ (4) 折れ線グラフ
(5) ヒストグラム (6) 円グラフ (7) 幹葉表示 (8) QQ プロット
(9) 散布図 (10) 平均のプロット (11) 3次元散布図 (12) グラフの保存
lattice パッケージによるグラフ作図
E. クロス表とカテゴリカルデータ解析
-- [測定値が質的データ・計数データ]
・表のコピペがうまくいかなかったら,
再度ここを
理解する.
敬意を払う人物:
カール・ピアソン
・
ロナルド・フィッシャー
・
ジャンポール・ベンゼクリ
クロス表(分割表)を作成
A cross table/ A contingency table
1. 量的データをカテゴリ化し二変数のクロス表を作成
-「iris分析」-
(1) 連続した数値データを
カテゴリ化
-「iris分析」-
(2) カテゴリ化した変数で
新しいデータフレーム
を作成
(3) カテゴリ化した変数から
クロス表
(分割表)を作成する
(4)
グループ別クロス表
(
三重クロス表
)をイチドキに作成
2. 質的データから
二変数のクロス表
を作成
(1) 変数がカテゴリの原表から分割表を作成
(2) Rにデータフレームを読み込む
(3) 変数名を使った分割表の作成
(4) 合計欄付き 分割表の作成
(5) 列番号を使った分割表の作成
3. 多重クロス表:質的データから
三変数のクロス表
を作成
(1) クロス集計表を「スタック」形式のデータフレームへ変換
(2) 「スタック」形式のデータフレームから三重クロス表を作成
(3) 三重クロス表のグラフ化
4.
表計算シートをクリップボード経由で読み込み
(1)
条件式を用い新しい変数を作成保存
する手順
(2)
クロス表を作成保存
する手順
クロス表の検定と解析
1.
二変数のクロス表
-独立性の検定
(1) 統計的仮説検定の復習
(2) 「独立性の検定」と「一様性の検討」
(3) 二変数の分割表の検定手法
(4) データフレームの読み込みと確認
(5)
カイ自乗検定(χ
2
)検定
(Pearson's Chi-squared test)
(6)
フィッシャーの直接確率
(Fisher's Exact Test)
カテゴリカルデータを対応分析
コレスポンデンス分析
1. 二変数のクロス表を
対応分析
Simple Correspondence Analysis
・店舗アンケートから
各店舗の特徴を把握
-シリウス先生の心理統計学
2. 多重クロス表を
多重対応分析
Multiple Correspondence Analysis
カテゴリカルデータを決定木で予測・判別・分類
Decision Tree
(回帰木)
F. 一〜二変数の要約とクロス表作成
----------- [測定値が量的データ]
・表のコピペがうまくいかなかったら,
再度ここを
理解する.
一変数の記述統計
-「iris分析」-
(1)
基本統計量(データの要約)と度数分布図
を作成 Histogram
(2)
グループ別に基本統計量と度数分布図
を作成
一変数の度数分布表の作成
-「iris分析」-
A frequency distribution table
(1)
table関数を使った度数分布表
(2)
連続変数をカテゴリ化した度数分布表の作成
(3)
相対度数(%)のある度数分布表の作成
二変数の記述統計
-「iris分析」-
(1)
2変数の散布図
を作成
(2)
複数の変数間の相関係数
をイチドキに求める
(3) グループ別の相関係数をイチドキに求める
(4) 量的データのクロス表(分割表)を作成 -「iris分析」-
・
連続した数値データをカテゴリ化
する
・
カテゴリ化した変数で新しいデータフレーム
を作成
・
カテゴリ化した変数からクロス表
を作成する
G. 相関分析と単回帰分析
----------------------[測定値が量的データ]
敬意を払う人物:
カール・ピアソン
・
モーリス・ケンドール
ピアソンの
積率相関係数
と(無相関)検定
-「iris分析」-
二変数の順位相関と(無相関)検定
(1)
順位相関係数
とは
(2) スピアマンの
順位相関係数
(3) ケンドールの
順位相関係数
三変数以上の順位相関と(無相関)検定
(1) ケンドールの
一致係数 W
単回帰分析と予測式の当てはめ
A regression analysis
(1) 直線相関と
線形単回帰分析
A simple linear regression analysis
(2) 直線関係に置き換えられる
累乗モデルと指数モデル
(3) 曲線相関と
非線形単回帰分析
A nonlinear regression analysis
(4) 自動推定する
非線形モデル
累乗モデル・指数モデル
・漸近指数モデル・ロジスティク成長モデル・ゴンペルツ成長モデル
量的データを回帰木で予測・判別・分類
Regression Tree
(決定木)
H. 平均値の差に関する検定
------------------- [測定値が量的データ]
・表のコピペがうまくいかなかったら,
再度ここを
理解する.
敬意を払う人物:
ウィリアム・ゴセット(スチューデント)
・
ロナルド・フィッシャー
二群の平均値の差に関する検定 [t検定]
---- Two Sample t-test
1. アンスタック・データ形式
(1)
独立な2群の平均値の差のt検定とウェルチの方法
(1)
(2)
対応のある2群の平均値の差のt検定
(1)
2. スタック・データ形式
(3)
独立な2群の平均値の差のt検定とウェルチの方法
(2)
(4)
対応のある2群の平均値の差のt検定
(2)
3. 三群以上の平均値の差を検定をするには
(5)
独立な3群以上の平均値の差の分散分析
(6)
対応のある3群以上の平均値の差の分散分析
三群以上の平均値の差に関する検定[分散分析と多重比較]
-ANOVA
1. 一要因のaovによる分散分析と多重比較
(1)
概要 一元配置
の実験データを分散分析
(2) 一元配置の分散分析と多重比較 (対応なし・標本数が同じ)
・
4人の分析者の測定技能
・
"iris"による,あやめの花のがく片の長さ分析
(等分散でない)
・
"InsectSprays"による,殺虫スプレーの効果分析
(等分散でない)
(3) 一元配置の分散分析と多重比較 (対応なし・
標本数が異る
)
・
三種類の触媒で作られた製品の製造原価比較
・
"chickwts"による,六種類の飼料サプリメントと鶏の体重
(4) 一元配置の分散分析と多重比較 (
対応あり
・標本数が同じ)
・
測定装置四台の分析力
・
三教科の試験の平均値の検定
・
"iris"による,あやめ「setosa」の4部位の形状分析
(等分散でない)
2. 一元配置のmanova多変量分散分析と多重比較
(
対応あり
・標本数が同じ)
・ 概要
多変量分散分析
・
"iris"による,あやめの花の形状分析
(多変量)
・
"Egyptian"による,古代エジプト人頭蓋骨の年代分析
(多変量)
3. 二要因のaovによる分散分析と多重比較
(1)
概要 二元配置
の実験データを分散分析
・ 二元配置の実験データを分散分析 21-2
(2) 二元配置を分散分析 (対応なしX対応なし・
標本数は1
) (多重比較・交互作用なし)
・
原料4種類,反応温度5種類での収率分析
(多重比較・交互作用なし)
(3) 二元配置を分散分析 (対応なしX対応なし・標本数が同じ)
・
成型温度4種類と触媒量3種類での強度分析
(多重比較・交互作用なし)
・
"weightgain"による,ラットの餌と体重増加の分析
(多重比較・交互作用なし)
・
"ToothGrowth"による,サプリメントによるモルモットの歯の成長
(多重比較・交互作用あり)
(4) 二元配置を分散分析 (対応なしX対応なし・
標本数が異る
)
・
"foster"による,ラット親子の遺伝子型と子供の体重分析
(多重比較・交互作用なし)
4. 三要因のaovによる分散分析
(1)
概要 三元配置(多元配置)
の実験データを分散分析
(2) 三元配置を分散分析 (対応なしXなしXなし・
標本数は1
)
・
触媒3種類,触媒使用量3種類,反応温度3種類での収量分析
(多重比較・交互作用あり)
(3) 三元配置を分散分析 (対応なしXなしXなし・標本数が同じ)
・
LED政党に対する好感度分析
(多重比較・交互作用あり)
・
触媒3種類,触媒使用量3種類,反応温度3種類での収量分析
(交互作用あり)
5. 分散分析中級編へ・
自習教材で練習編
統計処理のスキルを確かなものにするために,
教科書・解説書の内容を理解し,結果をRスクリプトで実行確認する.
[
先頭へ戻る
] [
総合案内に戻る
]