データサイエンス講座【初級編】第11回:散布図の読み方と作成方法
サマリ
散布図は2つの変数の関係を視覚的に理解するための重要なグラフです。この記事では、散布図の基本的な読み方から、Pythonを使った作成方法まで、初心者向けに分かりやすく解説します。データ分析の第一歩として、ぜひマスターしましょう。
詳細
散布図とは何か
散布図は、2つの数値変数の関係を表現するグラフです。横軸(X軸)と縦軸(Y軸)の2つの軸を持ち、各データポイントを点でプロットします。例えば、学生の勉強時間と試験成績の関係を調べたいときに、勉強時間をX軸、試験成績をY軸にして散布図を作成すれば、2つの変数がどのような関係にあるのかが一目瞭然になります。
散布図は相関分析の最初のステップとして、データサイエンティストが頻繁に使用するツールです。データ同士の関係性を直感的に理解できるため、データの傾向や外れ値の発見にも役立ちます。
散布図の読み方
散布図を読むときは、いくつかのポイントに注目します。まず、点の分布パターンを観察してください。点がうなぎ登りに右上がりになっていれば、正の相関がある、つまり一方の変数が増えるともう一方の変数も増える関係にあります。反対に、右下がりになっていれば負の相関があり、一方が増えるともう一方は減る関係です。
点がばらばらに散らばっている場合は、相関がない、または相関が弱いということです。また、他の点から離れた点がないかも確認しましょう。そのような外れ値はデータの品質に関わる重要な情報となる可能性があります。点が密集している場所が多いほど、その領域のデータが多く存在することも分かります。
散布図の種類と応用
基本的な散布図の他にも、いくつかのバリエーションがあります。バブルプロットは、点の大きさで第3の変数を表現します。例えば、広告費と売上の関係を示す散布図で、点の大きさで商品カテゴリーの市場規模を表現することができます。
色分けされた散布図も便利です。カテゴリー変数を色で区別することで、グループごとの関係性の違いを同時に観察できます。複数のグループが同時に分析でき、より詳細な情報を得られるのです。
Pythonを使った散布図の作成
Pythonで散布図を作成する最も簡単な方法は、matplotlibライブラリを使うことです。基本的な使い方は非常にシンプルで、plt.scatter関数にX軸とY軸のデータを渡すだけで完成します。
例えば、特定のデータセットから散布図を作成する場合、まずデータをPandasで読み込み、必要な列を指定してscatter関数を実行します。その際、figsize でグラフのサイズを指定したり、color で点の色を変更したり、s でサイズを調整することができます。title、xlabel、ylabel でグラフのタイトルや軸ラベルを設定することも大切です。
より高度な可視化が必要な場合は、seabornライブラリを活用するのがおすすめです。seabornはmatplotlibをベースにしていますが、より美しく、複雑なグラフを簡単に作成できます。例えば、回帰直線を同時に表示したり、分布を自動的に追加したりすることが可能です。
散布図を作成する際のコツ
散布図を効果的に使うためのコツをいくつかご紹介します。まず、データポイント数が非常に多い場合は、透明度を調整することで重なりを視覚化できます。多数の点が同じ場所に集まっている様子が分かり、データの密度分布がより明確になります。
次に、適切なスケーリングが重要です。X軸とY軸のスケール範囲が不適切だと、実際の関係性を誤解してしまうことがあります。データの全体像を把握したうえで、必要に応じてスケールを調整しましょう。
また、外れ値がある場合は、その原因を調査することが重要です。データ入力ミスなのか、真に異なる現象なのか、判断する必要があります。外れ値を含めるか除外するか、含める場合はどのように扱うかによって、分析結果が大きく変わる可能性があります。
まとめ
散布図は、データ分析の基本中の基本です。2つの変数の関係を直感的に理解でき、仮説の検証や新しい発見につながります。Pythonを使えば簡単に作成でき、実務でもよく使われます。この記事で紹介した読み方と作成方法をマスターすることで、データ分析のスキルは大きく向上するでしょう。次回の講座では、さらに高度な可視化技法について学んでいきます。
