2001-6 QC&C Labo 梅木 信治
*** QCテクニック初級講座 *** 
これなら簡単,誰でも使えるSQC
(第2回)
「バラツキの概念と標準偏差について」

「バラツキの概念と標準偏差について」要約
1.データのバラツキ(分布)はチェックシートヒストグラムを使って視覚的に把握するのがよい.
2.バラツキを数値で表すには,標準偏差シグマ)を使う.
3.バラツキは必ずしも”悪”とは限らない!(お急ぎの方は,コラム2 バラツキは悪か?が面白い!)
1.データの分布を調べる.

 天気予報専門の会社が公開しているホームページのひとつに,Cyber Weather World というのがありますが,ここで見つけた昨年の「夏休みお天気情報」から,一部のデータを借用しました.(URL http://www.wni.co.jp/cww/)
表1(興味のある方はクリックして下さい)に示した昨年夏の東京札幌における日中(9:00, 12:00,15:00)の気温を
図1にチェックシート方式で東京と札幌に分けてプロットしたものを示します.



  温度区分は,2℃間隔にしてありますが,あまり細かくしないで,全体が6から7区分位になるように,しかもあまり端数が出ない分かりやすい区切りにするの が,チェックシートやヒストグラムを作る時のコツです.最近はヒストグラムもパソコンで簡単に描けますが,データ数がこの程度(100個前後)でしたら, 手元にあるメモ用紙を使ってその場で直ぐチェックして作ってしまう方が簡単だし,チェックしながらデータの動きが直接分かるので,実用的だと思います.

 この図を見て分かることは,東京では日中になると30℃を超えた日が70%以上もありましたが,札幌ではわずか3日だけですね.平均気温が25℃から 26℃位ですから(プロット数がほぼ半々になる境目あたり)東京より5℃位涼しかったことが分かります.

 それから,1ヶ月間のそれぞれの時刻における最高気温と最低気温の差は,札幌で異常と思われる7月31日と8月1日を除けば,日中で12℃位ですから, バラツキの目安としてよく使われる標準偏差(通常「シグマ」と呼ばれることが多い)は2.5℃前後であることも分かります.標準偏差については,これから 詳しく説明します.

2.標準偏差(シグマ)とは何か
 
 品質管理スタッフでなくても,標準偏差という言葉は聞いたことがあると思いますし,意味が良く分からないまま,使っている方も多いのではないかと思います.一般に,データをとってみると,集団としては本来同じと思われる場合でも,個々の値は少しずつ異なるのが普通です.理由はともかくとして,これらの現象をバラツキがあるとか,変動があると表現します.

 バラツキや変動を数値で表すには,最大値と最小値の差をとって,範囲(R)と称して表現する簡単な方法もありますが,サンプル数が異なる場合や大きい場合には,あまり適切な方法とは言えません.
 次に,個々の値と平均値からのズレ(偏差)を計算し,それらの絶対値の総和をデータ数で割れば,バラツキの目安になると考えた人がいたのですが,どういう訳か採用されませんでした.
これを更に一歩進めて偏差の2乗の総和を求め,データ数で割ったものを分散と定義し,この値のルート(平方根)を標準偏差と称してよく使われるようになりました.
 
  一方,実際のデータを沢山測定して,それらの分布曲線を描いてみると,平均値を中心とした山の形になります.これを正規分布曲線と呼びますが,ほぼ200年前に活躍したドイツの数学者であるガウスが数学的な理論付けを行ったことから,ガウス分布とも呼ばれています.

 実は,このガウス分布曲線に,変曲点があるのですが,中心からの距離が何と標準偏差と一致すると言うのです.このあたりの意味については,詳しいことは私も分かりませんが,皆さんは一応,数学的根拠に基づいて,標準偏差というものが定義されたんだと理解してほしいと思います.なお,変曲点とは,カーブの向きが変わる境目のことで,自動車の運転で言えばS字カーブなどでハンドルを右から左へ切換える瞬間のポイントと思えばよいでしょう.
 
 図2に,正規分布曲線を示しますが,実務面で重要なことは,全体の約68%が平均値±シグマの間にあり,約95%が平均値±2シグマの間にあるという事実です.つまり,標準偏差(シグマ)の意味は,100個のデータの内,およそ95個が平均値から±2シグマの間にあることを示すバロメータということなのです.この性質を利用すれば,ヒストグラムから,標準偏差を推定できることになります.
データ数が30個から100個位なら異常値(外れ値)を除いて,最大値から平均値を引いた値の約40%が,標準偏差と見ても大きく外れることはありません.


図2 正規分布曲線

 始めにデータの分布をプロットしてから,バラツキの代表的な例として標準偏差を説明したのは,本来グラフや分布を描いて,全体の様子を掴んでから,いわゆる基本統計量といわれる平均値や標準偏差で数値表現するのが正しいデータ解析の方法なのですが,ややもすると,代用特性である数値のみに頼って,本質を見失う傾向が見られるので,注意が必要だということを強調したかったからです.

コラム2
         「バラツキ」 は悪か?
 日常生活の中で使われる「バラツキ」と言う言葉は,あまり良い印象を与えない感じがするが,果たして本当だろうか? 何か品物を買う時,品質にバラツキがないか調べたり,場合によっては選んだりする.一般には価格も大きな判断基準なので,自分の納得できるレベルで決めることが多い.したがっていつもベスト・クオリティを求める訳ではない.

 一方,生産者側では,多くの客に買ってもらえるように,同一製品であれば,できるだけバラツキの少ない製品を作ろうとするが,コストとの関係で,ある範囲のバラツキは容認した設計にする.一般に
容認されるバラツキの幅は,その製品の使用目的に対して,機能上問題が生じない程度であって,いわゆる規格幅より多少狭いのが普通である.したがってその程度のバラツキは許される範囲であると消費者も納得している.
 消費者の立場で,気になるバラツキとして,寿命とかアフターサービスがある.一般に購入時点では判断できないので,メーカーを信用するか,友人や知人,その他の情報から決めることになるが,アフターサービスなどは,会社や販売店によってバラツキが多く,ユーザーの不信を買うことが最近は多い.
 
自然現象やそれによって影響を受ける農作物などの場合は,経験的に認知されている範囲内であれば,それらのバラツキはやむを得ないものとして許されることが多い.天気や気温などは,自然のサイクルに合わせてある程度変化しないと,人間も含めて動植物の生態が狂ってくるので,大変なことになる.
 中には,積極的にバラツキを利用する分野もある.発明新製品開発などの仕事は,今までに無いものや環境を産み出すために,例外的な目標を求めて,いろいろな条件を組み合わせて実験したりして,意外性を追及する.通常の生産活動とは正反対の思考を必要とするので,どちらかと言えば変人扱いされる.
 こうして見ると,バラツキにもいろいろなタイプがあることが分かるが,企業の経営者管理者は,それぞれの分野に携わる社員に要求すべきパターンとそれらを実現しやすいような環境を合理的に考えて具体化しないと,企業は発展しないのだが,どの位気がついているだろうか?


表やグラフ,文献の一部はPDFファイルで添付します.ご覧になるには Acrobat Readerが必要になりますが,左側のアイコンをクリックすればダウンロードできます.