読者です 読者をやめる 読者になる 読者になる

RepoLog│レポログ

研究職サラリーマンが日々感じたことをレポートするブログです。

食べログ評価やYouTuber年収から読み解く「平均値」が悪者扱いされている理由

教育レポート 数学・統計

平均値

得られたデータを整理し、要約する記述統計学の世界で、誰もが知っている「平均値」が度々悪者扱いされています。

では、なぜ平均値は悪者扱いされてしまうのでしょうか。

そんな疑問を解消すべく、本日は、平均値について、その求め方から意味まで、深く掘り下げていくことを目指していこうと思います。

本日学ぶ統計学の知識

☑ なぜ「平均値」は、悪者扱いされてしまうのか


大抵の記述統計学を学ぶテキストにおいて、最初に紹介される指標が「平均値」です。

私たちの暮らしの中で、すでに"平均"という概念が常識化しつつあり、とっかかりとして使い勝手がいいことが理由に挙げられます。

当然、平均値には大変大きな魅力が詰まっているわけですが、一歩見方を見誤ると大きな失敗につながりかねないことから、平均に対して疑心暗鬼になり、平均値≒悪の指標として捉えられてしまっている一面も持ち合わせています。

疑心暗鬼になることは決して悪いことではないわけですが、それ以上に大切な平均値の持つ意味をしっかりと理解する努力を怠ってしまっていては、元も子もありません。

もう一度、ここで平均値の持つ本当の意味について考えてみてはいかがでしょうか。

 

平均値の求め方

平均値と一口に言っても、実は目的に応じて平均のとり方は様々存在するわけですが、ここでは、最もポピュラーな算術平均(相加平均)について考察していきたいと思います。

日常的によく使われる算術平均の求め方は、データの和をデータ数で割ることで求められます。計算式は、次の通りです。

 \begin{eqnarray} \bar{x}=\frac{1}{n}\sum_{i} x_i  \end{eqnarray}

ここで、 \begin{eqnarray} \bar{x} \end{eqnarray}は平均、 \begin{eqnarray} n \end{eqnarray}はデータ数、 \begin{eqnarray} x_i \end{eqnarray}はデータを意味します。

この平均値を求める式が簡単であることも、平均値が世に浸透している理由にひとつであると思われますが、果たして平均値の意味を真に理解したうえで利用している方はどれほどいるのでしょうか。(私自身もこうして勉強してみて知ることも多くありました。)

さて、あなたは、「平均値は何を意味しているのか」という問いに答えられるでしょうか。この問いに対する答えは、「何のために平均値を求めるのか」という問いに対しても有効な回答の本質が詰まっているはずです。

ここでは、教科書でよく説明される平均値の持つ意味を再確認したうえで、筆者が平均値の持つ意味を見誤ってしまっているのではと感じた実例を取り上げていこうと思います。

平均値の持つ意味

平均の意味

平均値とは、その字のごとく「平らに均(なら)した値」と言えます。

上の図でわかるように、凸凹したデータを平らに均したときの高さこそ平均値になるわけですが、幾何学的な言い方をするならば「データの重心」を表す指標とも表現できます。つまり、ヒストグラム(棒グラフ)を図形と見なしたときの、つり合いの支点ということです。

ここで平均値が重心の位置であることが理解できれば、いくつかの重要な意味を発信してくれていることに気付きはじめます。

それらの中で最も重要なものは、"平均は大多数のデータの代表である"ということは単なる錯覚であるということです。

これは、少し難しい言い方をすると、どんな場合でも「平均値とデータの差から、そのデータの得られる確率(あるいは出現頻度)を簡単に推定できるような指標」という意味を平均値に求めてはいけないということを訴えているわけです。

つまり、私たちが期待する意味を平均値が持つためには、いくつかの条件が必要であり、平均値だけで議論をしても意味を持たないケースが圧倒的に多く存在していることを認識しておく必要があるわけです。

 

平均値の意味が見失われている事例

それでは、以下で平均値の持つ意味を見誤っている具体的な事例を紹介してみたいと思います。

ユーチューバーの平均年収

ネットでも話題になったというYouTuberの平均年収ですが、こうした数値に「平均」という言葉が使われるからこそ、平均値が悪者として扱われてしまうという代表的な事例になります。

算出方法は、記事によると厚生労働省の労働白書や口コミをもとに平均給与を算出していると最もらしいことを書いていますが、そもそも算出に使ったデータのとり方に大いに問題がある上、この747万円という数値にどんな意味を持たせたかったのかも謎の記事です。

まさに、機械的に平均値を使って議論を促している事例ではないでしょうか。

食べログの評価点数

食べログ

画像引用:https://tabelog.com/

食べログ(https://tabelog.com/)の評価点に関しても、平均値の持つ意味を確認してほしい題材のひとつと言えます。

そもそも、あなたは食べログを利用した際、表示される数字がどのように算出されているのかをご存知でしょうか。食べログの評価点に関しては、次のような説明がHP内で確認できます。

f:id:sekkachipapa:20170401134720p:plain

画像引用:https://tabelog.com/

明確な計算アルゴリズムについては「非公開」としながらも、大きなメッセージが上図には込められています。

食べログでは、

  • ユーザーの影響度=食べログで投稿を繰り返しているユーザーの評価

という考え方の元、ユーザーが評価した点数に"重み"を付け加えているわけです。つまり、食べログによく書き込んでいるユーザーの評価点は重く受け止め、大きく評価点に反映させていくけど、食べログにあまり書き込みしないユーザーの評価点はあまり評価しません、という仕組みになっているわけです。

この評価点に重みを付ける計算システムについては、食べログ側の意図が少なからず働く結果となるわけですので、良きにしろ悪しきにしろ統計学的な問題はあります。ただ、その問題を問題と捉えるかどうかはユーザー次第です。

ただし、この記事で書いたように標本調査としては大いに問題があることは頭に入れておいてもいいかもしれません。

また、各店舗における評価点の分布図は確認できても、食べログ全体の評価点の分布図がない限り、その数値がどのような意味を持つのかを論じることが不可能です。これは、つまり食べログ内における「3.05」という評価がどれほど高い評価なのかを判断できないということを意味しています。

最後に筆者が一番の問題と感じる点は、どれだけ細かく評価基準を設定しても「おいしい」という味覚を数値で表すことの難しさです。

食べログ

例えば、「3」という同じ評価を出した3人の家族が、全く同じ価値基準のもとで下した評価であるかは未知数というわけです。

以上のように、"食べログの評価点"を持ってして、食べログの言うところの"来店して満足する確率"を述べることは、根拠が薄いことが分かります。

総じて、食べログの評価点があたかも平均値であるかのような表記を用いていることは誤解を招く恐れがあるといえるわけです。

平均値は、決して悪者ではない 

Average

ここで紹介した事例のように、平均値を扱っている多くの場合で、機械的に平均値を計算し、議論のまな板にのせているが、平均値の持つ本来の意味を見失ってしまっています。

では、それが悪なのかといえば、それはまさにその情報を受け取った側の問題になり、場合によっては本質とズレた値であったとしても価値があると判断されるわけです。

つまり、扱われる指標が持つ数学的な意味と日常で参考にしたい実務的な意味は一致するとは限りませんが、そうした解釈の仕方を受け取り手側に投げ込んでくる手法が発端となり、平均値が悪者になってしまっている現状が透けて見えてきます。

「何のために平均値を用いるのか」という問いを、平均値を算出し発信する側も、平均値をもとに行動する受け手側も、頭で反復しつつ、情報を精査していく必要があるようです。