代表値・平均値・中央値・最頻値の違いについて

数学
スポンサーリンク
スポンサーリンク
スポンサーリンク

本ブログには数学系の知識も備忘録的にまとめてあります。
自分なりにカテゴリ分けをして共通分野のWebページは連番になるようにまとめているのですが、どこにも分類されないものも当然存在します。
本記事は、未分類ですが内容としては知っておきたいと思ったことについてわかりやすくまとめたものとなっています。

今回は、「代表値・平均値・中央値・最頻値の違い」についての説明です。

1.初めに

代表値・平均値・中央値・最頻値と聞いて、それぞれの違いをイメージできますでしょうか?
代表値と平均値はその字面から想像できるかと思いますが、中央値と最頻値に関してはよくわかっていないという人は割と多いと思うんですよね。

ただ、平均値と中央値は意識して使い分けられていることが割と多いので、データ分析とか資料の読み取りをする上ではその違いについて知っておかないと、間違った方向に捉えてしまう可能性があります。

そこで、今回は代表値・平均値・中央値・最頻値の違いについて簡単に解説していこうと思います。

2.代表値とは?

代表値とは、あるデータの分布や傾向を一つの値で表すための中心的な指標のことです。

11・12・13・14・15という数値データがあった場合、ど真ん中は13ですよね?
なので、代表値は13になるというだけの話です。

そして、代表値として取り扱われることがある主な数値として、平均値・中央値・最頻値などが存在します
この例の場合、代表値は平均値であり、中央値でもあります。

3.平均値とは?

平均値とは、すべてのデータを合計して、それをデータの個数で割った値のことを指しています。

よく使用されているのはテストの平均点ですね。

例えば、100点満点のテストを5人の生徒に対して実施したところ、それぞれ40点・42点・44点・44点・50点だったとします。
この場合、(40点+42点+44点+44点+50点)÷5人で平均点は44点ということになります。
大体真ん中くらいの値になっていて、テストの内容が難しかったのだろうと想像できるでしょう?
このように、全体の傾向や典型的な値を示す際に、平均値が用いられていることがあります。

ただし、平均点には外れ値(極端な値)の影響を受けやすいという欠点があります

例えば、先程のテストの点数がそれぞれ40点・42点・44点・44点・100点になったとします。
5人目だけ満点を取ってくる猛者に切り替わったわけです。

この場合の平均点は、(40点+42点+44点+44点+100点)÷5人=54点です。
1人イレギュラーが入り込んだだけで、平均点が44点から54点に引き上げられてしまったんですよ。

逆に、0点を取ってくるアホが2~3人紛れ込んだとしたら、平均点は10点代になる可能性もあります。

このように、極端に点数が良い/悪い外れ値がデータに含まれていると、平均点は指標としてあまり意味の無いものになってしまうというわけです

なので、本当の意味で平均を知りたい内容に関しては平均値を採用していますが、そうでは無い場合は後述の中央値や最頻値を使って代表値を示していることがあります
全国模試なんかは、全国に存在する多くの学生達の学力の中心を知りたいので平均値を使用しているんじゃないですかね?

4.中央値とは?

中央値とは、データを小さい順に並べた時に中央に位置する値のことを指しています。
データの個数が奇数の場合はど真ん中の値、偶数の場合は中央2つの値の平均値が中央値になります。

中央値は平均値と違って、外れ値の影響を受けにくいという特徴があります

先程の天才が紛れ込んだテストを例に挙げると、40点・42点・44点・44点・100点なので、真ん中の44点が中央値となるわけです。
データの中で極端に大きい/小さい値があったとしてもそこには引っ張られないんですね。
その為、データのバラつきが大きい場合は、中央値が用いられていることが多いです

中央値が適していることが多い例は、年収と貯金額です。

例えば、30代男性の年収と貯金額の平均値と中央値は、2025年時点では大体以下のようになっています。

図1

平均値と中央値を比較すると、年収で約40万、貯金額で約330万もの差が出てしまっているでしょう?
なんで同じ代表値の一端なのにこんなに差が出てしまっているのかと言うと、平均値は一部の高収入者に全体が引き上げられてしまっているからです

この類いのアンケートの場合、調査対象の中には非正規雇用の派遣やフリーターの人も含まれています。
それに、30代男性の単身者の30%程度は貯金0円と答えたというアンケート結果もあり、もっとも分布が多いであろう低~中所得者に限って年収・貯金額のアンケートを取ると、もっと悲惨な数値になることは明白です。
30代男性単身者の貯金額の中央値に至っては、100万程度になると言われています。

そんな中、非常にマネーリテラシーの高い方もいるわけで、貯金額が5,000万を超える人なんかもいます。

では、貯金額のアンケートを取った時に、貯金0円が9人、5000万円が1人だった場合、平均値はどうなるでしょうか?
平均500万貯金してることになるんですよ。

この平均値を見て妥当だとは思う方はいないかと思います。
10人にしかアンケートを取っていないから結果が極端になっているとは言え、貯金0円の人がこれだけいるなら、分母を大きくすればもっと平均貯金額は下がりそうなものですからね。

このように、データ幅が広ければ広いほど外れ値の影響が大きくなってしまうので、年収や貯金額は平均値で表すのに適していないのです
分母が増えたところで、外れ値の影響が大きい点は変わらないですからね。

その点、中央値の場合は最も多いであろう低~中所得者の年収・貯金額が中央に来るので、平均値よりもより実態に近い代表値になっているというわけです

それにしても、30代で貯金0円はヤバいと思わないんですかね?
30代男性の単身者の3人に1人が貯金0円とか信じられないんだけど…。

5.最頻値とは?

最後に最頻値について触れておきます。

最頻値とは、最も頻繁に現れる値のことです。
データの中で、最も分布が多いマジョリティ/多数派を表しているわけです。
その為、最も人気があるものは何かを示すときなどに最頻値が代表値として扱われます

平均値と中央値の時は数値の中央を見つけようとしていましたが、最頻値は中央と見つけようとしているのではなく、最も多かったものを見つけようとしているのです。
目的が違うんですね。

端的に言えば、人気No.1を示したい時に最頻値を代表値として扱うのです。

以上、「代表値・平均値・中央値・最頻値の違い」についての説明でした。