データサイエンス講座【初級編】第7回:度数分布表とヒストグラム
サマリ
度数分布表とヒストグラムは、大量のデータを整理し視覚化するための基本的で重要な手法です。この記事では、これらの作成方法と解釈方法を分かりやすく解説します。データ分析の第一歩となるこれらのツールをマスターしましょう。
詳細
度数分布表とは
度数分布表は、データを一定の区間(階級)に分けて、各区間に含まれるデータの個数(度数)を整理した表です。例えば、100人の学生の身長データがあるとき、160cm以上170cm未満、170cm以上180cm未満といった階級を設定し、各階級に何人の学生がいるかを数えるのです。
この表を作成することで、膨大で複雑に見えるデータを、わかりやすく整理することができます。特に数百件以上のデータを扱う場合、度数分布表は非常に有効な手段となります。また、後で説明するヒストグラムを作成するための基礎となります。
度数分布表の作成ステップ
度数分布表を作成するには、まずいくつかのステップを踏む必要があります。
第一段階は、データの最大値と最小値を確認することです。身長の例なら、最小値150cm、最大値190cmだとします。
第二段階は、適切な階級の幅を決めることです。一般的には、階級の数が5~20程度になるように設定します。先ほどの例なら、40cm÷10cm=4個の階級を作ると、各階級の幅は10cmとなります。
第三段階は、実際にデータを各階級に分類し、度数を数えることです。このプロセスで、データの分布の特徴が見えてきます。
ヒストグラムの特徴と利点
ヒストグラムは、度数分布表をグラフで表現したものです。横軸に階級、縦軸に度数を取り、各階級に対応する高さの棒を描きます。
ヒストグラムの最大の利点は、データの分布を一目で把握できることです。棒グラフのように見えますが、棒同士が隣接していることが特徴です。これにより、データがどの値に集中しているのか、どのような形で分散しているのかが直感的に理解できます。
例えば、テスト成績のヒストグラムを見て、高得点に集中しているのか、低得点に集中しているのか、それとも均等に分散しているのかが瞬時に分かります。
相対度数と累積度数の活用
度数分布表を更に活用するために、相対度数と累積度数という概念があります。
相対度数は、各階級の度数を全体のデータ数で割った値です。これにより、各階級がデータ全体に占める割合がわかります。例えば、身長160~170cmの学生が100人中25人なら、相対度数は0.25(25パーセント)となります。
累積度数は、その階級までの度数を合計したものです。これにより、「身長170cm以下の学生は何人か」といった質問に答えられます。データ分析において、このような累積的な情報は意思決定に役立つことが多いです。
実務でのヒストグラム活用例
ヒストグラムは、実務でも幅広く活用されています。製造業では、製品の寸法のばらつきを管理するために使用されます。営業部門では、売上の分布を分析するため、医療現場では患者の検査値の分布を把握するために用いられます。
また品質管理の文脈では、ヒストグラムから異常値を発見したり、プロセスの改善が必要かどうかを判断したりします。さらに機械学習の前処理段階でも、各変数の分布を理解するために重要な役割を果たします。
注意点と今後のステップ
度数分布表やヒストグラムを作成する際は、階級の幅の決定が重要です。幅が小さすぎると細かすぎて見づらくなり、大きすぎるとデータの特徴が失われてしまいます。複数の幅を試してみて、最も情報が伝わりやすいものを選びましょう。
これまでの初級講座で学んだ記述統計の知識とともに、度数分布表とヒストグラムをマスターすれば、データの基本的な理解ができるようになります。次のステップでは、より高度な統計量や確率分布について学んでいきます。データサイエンスの基礎をしっかり身につけていきましょう。
