データサイエンス講座【初級編】第8回：平均値、中央値、最頻値の違い

サマリ

データ分析の基礎となる「平均値」「中央値」「最頻値」は、それぞれ異なる特性を持つ代表値です。本記事では、これら3つの統計量の違いや使い分け方を図解付きで解説します。

詳細

平均値（Mean）とは何か

平均値は、最も一般的に使われている統計量です。全てのデータを足し合わせて、データの個数で割った値を意味します。例えば、5人の学生のテストの点数が「60点、70点、80点、90点、100点」だった場合、平均値は（60+70+80+90+100）÷5＝80点となります。

平均値は直感的に理解しやすく、計算も簡単です。しかし、極端に大きい値や小さい値が含まれると、その影響を大きく受けてしまうという弱点があります。例えば、給与データで1人の経営者の年収が非常に高い場合、平均値は実際の労働者の給与水準を正しく反映しなくなります。

中央値（Median）の役割と特徴

中央値は、データを小さい順に並べた時に、ちょうど真ん中に来る値です。データが奇数個の場合は中央の値、偶数個の場合は中央の2つの値の平均を取ります。先ほどのテストの点数で言えば、「60、70、80、90、100」を並べた時に中央値は80点です。

中央値の大きな利点は、極端な値の影響を受けにくいことです。例えば、給与データで1人だけ年収が1000万円でも、他の労働者が平均500万円であれば、中央値はその1000万円の影響をほぼ受けません。このため、所得分布など外れ値が存在する可能性が高いデータセットでは、平均値よりも中央値が有用です。

最頻値（Mode）の使い道

最頻値は、データの中で最も頻繁に現れる値です。例えば、顧客の購入サイズが「S、M、M、L、M、XL」だった場合、最頻値はMサイズになります。カテゴリカルデータ（質的データ）に対して最も適した統計量です。

最頻値は消費者の好みやトレンドを把握するのに役立ちます。小売業では、どのサイズが最も売れているかを知ることで、在庫管理の最適化ができます。また、最頻値はデータの分布の形を理解する上でも重要な情報となります。複数の最頻値を持つデータセット（バイモーダル分布）は、異なる2つのグループが存在することを示唆しているかもしれません。

3つの統計量を使い分けるポイント

では、実際にはどの統計量を使うべきでしょうか。それはデータの特性と分析目的に左右されます。まず、データが正規分布に従っている場合は、平均値が最も適切です。正規分布とは、ベルカーブの形をした左右対称な分布を指します。

一方、外れ値が多い、または偏ったデータセットでは、中央値を使用することが推奨されます。リアルエステート業界の物件価格や医療データなど、異常値が存在しやすい分野では特にそうです。そして、カテゴリカルデータや顧客の購買パターンなど、「どれが最も一般的か」を知りたい場合には最頻値が活躍します。

実務での具体例

電子商取引企業での売上分析を考えてみましょう。月間売上が「100万、110万、105万、120万、500万」だった場合、平均値は167万円です。しかし、1件の大口顧客による500万円の売上が含まれているため、通常の月の売上傾向を正しく表していません。この場合、中央値の110万円の方が実態に近いです。

また、Webサイトのアクセス時間を分析する場合、ほとんどのユーザーが3分以内に離脱するのに対して、一部のユーザーが30分以上閲覧する場合があります。平均値は高くなってしまいますが、最頻値を見ることで、典型的なユーザー行動を把握できます。

まとめ：統計リテラシーの向上

平均値、中央値、最頻値は、それぞれ異なる情報を提供する重要な統計量です。プロのデータサイエンティストは、3つの値を並べて比較することで、データの分布や特性をより深く理解します。次回のデータ分析では、ぜひこれら3つの統計量すべてを計算して比較してみてください。その違いから、思わぬインサイトが得られるかもしれません。

Python データサイエンスデータ分析機械学習統計学

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31