データサイエンス講座【初級編】第17回:Matplotlibでのグラフ作成
サマリ
Matplotlibはデータサイエンスの必須ツールです。本記事では、初心者向けにMatplotlibの基本的な使い方を解説します。折れ線グラフ、散布図、ヒストグラムなど、よく使われるグラフの作成方法を具体例を交えて紹介します。
詳細
Matplotlibとは
Matplotlibは、Pythonで数値計算やデータ可視化を行うための強力なライブラリです。科学計算や統計分析の結果を、わかりやすく視覚化するために広く使われています。
初心者にとって最も大切なことは、Matplotlibが非常に柔軟で拡張性に富んでいるという点です。シンプルなグラフから複雑なカスタマイズまで、ほぼ全ての可視化ニーズに対応できます。
基本的なセットアップ
Matplotlibを使い始めるには、まずインポートする必要があります。一般的には「import matplotlib.pyplot as plt」という記述を使います。この形式が標準的な書き方として業界で広く認識されています。
また、Jupyter Notebookで作業する場合、「%matplotlib inline」というマジックコマンドを実行することで、グラフをノートブック上に直接表示できます。これにより、コードの実行結果をすぐに確認できるため、学習効率が大幅に向上します。
折れ線グラフの作成
折れ線グラフは、時系列データの変化を追うのに最適です。基本的な作成方法は非常にシンプルです。
xデータとyデータを用意して、plt.plotという関数を呼び出すだけで折れ線グラフが生成されます。その後、plt.xlabel()でx軸のラベルを、plt.ylabel()でy軸のラベルを設定し、plt.title()でグラフのタイトルを付けます。最後にplt.show()を実行すればグラフが表示されます。
複数の折れ線を同じグラフに描画したい場合は、plt.plot()を複数回呼び出すだけで対応できます。その際、凡例を表示するためにplt.legend()を使うと、どの線がどのデータを表しているかが一目瞭然になります。
散布図の表現方法
散布図は、2つの変数の関係性を調べるのに非常に役立ちます。plt.scatter()関数を使って作成します。
折れ線グラフとの違いは、データポイントが点として表示される点です。点のサイズや色をカスタマイズすることもできます。例えば、s引数で点の大きさを指定したり、c引数で色を指定したりできます。これにより、3次元以上の情報を2次元のグラフに盛り込むことが可能になります。
散布図は相関関係を視覚的に把握するのに適しており、データサイエンティストが探索的データ分析を行う際に頻繁に使用されます。
ヒストグラムの活用
ヒストグラムは、データの分布を理解するために欠かせないグラフです。plt.hist()関数で作成できます。
bins引数でバー(階級)の数を指定することで、分布の粒度を調整できます。bins数が多いほど細かな分布が見え、少ないほど大まかな傾向が見えます。データの特性に応じて最適なbins数を選択することが重要です。
ヒストグラムは、データが正規分布に従っているか、外れ値が存在するかなど、データの統計的性質を素早く把握するのに役立ちます。
グラフの装飾とカスタマイズ
Matplotlibの真価は、グラフの細かいカスタマイズにあります。plt.figure()で図全体のサイズを指定し、グリッド線の表示、線のスタイルや幅の変更、フォントサイズの調整など、様々な要素をコントロールできます。
特に、プレゼンテーションやレポート作成時には、見栄えの良いグラフが重要です。配色やフォント、レイアウトを工夫することで、データが伝えたいストーリーをより効果的に視聴者に届けることができます。
実践的なコツ
初心者がMatplotlibを学ぶ際は、まずシンプルなグラフから始めることをお勧めします。複雑なカスタマイズは後からでも十分対応できます。
また、公式ドキュメントやサンプルコードを参考にしながら、実際に手を動かしてコードを書くことが上達の最短経路です。エラーが出たときは、そのエラーメッセージを丁寧に読むことで、問題の原因を特定できます。継続的な実践を通じて、Matplotlibの扱いに慣れていきましょう。
