データサイエンス講座【初級編】第8回:平均値、中央値、最頻値の違い
サマリ
データ分析の基礎となる「平均値」「中央値」「最頻値」は、それぞれ異なる特性を持つ代表値です。本記事では、これら3つの統計量の違いや使い分け方を図解付きで解説します。
詳細
平均値(Mean)とは何か
平均値は、最も一般的に使われている統計量です。全てのデータを足し合わせて、データの個数で割った値を意味します。例えば、5人の学生のテストの点数が「60点、70点、80点、90点、100点」だった場合、平均値は(60+70+80+90+100)÷5=80点となります。
平均値は直感的に理解しやすく、計算も簡単です。しかし、極端に大きい値や小さい値が含まれると、その影響を大きく受けてしまうという弱点があります。例えば、給与データで1人の経営者の年収が非常に高い場合、平均値は実際の労働者の給与水準を正しく反映しなくなります。
中央値(Median)の役割と特徴
中央値は、データを小さい順に並べた時に、ちょうど真ん中に来る値です。データが奇数個の場合は中央の値、偶数個の場合は中央の2つの値の平均を取ります。先ほどのテストの点数で言えば、「60、70、80、90、100」を並べた時に中央値は80点です。
中央値の大きな利点は、極端な値の影響を受けにくいことです。例えば、給与データで1人だけ年収が1000万円でも、他の労働者が平均500万円であれば、中央値はその1000万円の影響をほぼ受けません。このため、所得分布など外れ値が存在する可能性が高いデータセットでは、平均値よりも中央値が有用です。
最頻値(Mode)の使い道
最頻値は、データの中で最も頻繁に現れる値です。例えば、顧客の購入サイズが「S、M、M、L、M、XL」だった場合、最頻値はMサイズになります。カテゴリカルデータ(質的データ)に対して最も適した統計量です。
最頻値は消費者の好みやトレンドを把握するのに役立ちます。小売業では、どのサイズが最も売れているかを知ることで、在庫管理の最適化ができます。また、最頻値はデータの分布の形を理解する上でも重要な情報となります。複数の最頻値を持つデータセット(バイモーダル分布)は、異なる2つのグループが存在することを示唆しているかもしれません。
3つの統計量を使い分けるポイント
では、実際にはどの統計量を使うべきでしょうか。それはデータの特性と分析目的に左右されます。まず、データが正規分布に従っている場合は、平均値が最も適切です。正規分布とは、ベルカーブの形をした左右対称な分布を指します。
一方、外れ値が多い、または偏ったデータセットでは、中央値を使用することが推奨されます。リアルエステート業界の物件価格や医療データなど、異常値が存在しやすい分野では特にそうです。そして、カテゴリカルデータや顧客の購買パターンなど、「どれが最も一般的か」を知りたい場合には最頻値が活躍します。
実務での具体例
電子商取引企業での売上分析を考えてみましょう。月間売上が「100万、110万、105万、120万、500万」だった場合、平均値は167万円です。しかし、1件の大口顧客による500万円の売上が含まれているため、通常の月の売上傾向を正しく表していません。この場合、中央値の110万円の方が実態に近いです。
また、Webサイトのアクセス時間を分析する場合、ほとんどのユーザーが3分以内に離脱するのに対して、一部のユーザーが30分以上閲覧する場合があります。平均値は高くなってしまいますが、最頻値を見ることで、典型的なユーザー行動を把握できます。
まとめ:統計リテラシーの向上
平均値、中央値、最頻値は、それぞれ異なる情報を提供する重要な統計量です。プロのデータサイエンティストは、3つの値を並べて比較することで、データの分布や特性をより深く理解します。次回のデータ分析では、ぜひこれら3つの統計量すべてを計算して比較してみてください。その違いから、思わぬインサイトが得られるかもしれません。
