データサイエンス講座【初級編】第18回：単回帰分析の基礎

サマリ

単回帰分析は、1つの説明変数と1つの目的変数の関係を直線で表す統計手法です。本記事では、その基本概念から計算方法、そして実務での活用方法まで、初心者向けにわかりやすく解説します。

単回帰分析は、データサイエンスの基礎となる最もシンプルな予測モデルです。2つの変数の間に存在する直線的な関係を見つけ出し、その関係式を用いて未知のデータを予測する手法です。

例えば、営業マンの経験年数と年間売上の関係、広告費と商品の売上、気温とアイスクリームの販売量など、日常のあらゆる場面で活用できます。単回帰分析は、この「Xが増えるとYも増える」といった因果関係を数式化することで、より精密な予測を可能にします。

単回帰分析の根底にあるのは「最小二乗法」という考え方です。これは、実際のデータ点と直線の距離（残差）の二乗和を最小化することで、最適な直線を見つける方法です。

イメージしやすくするために、散布図を思い浮かべてください。複数のデータ点がプロットされている中を、できるだけ正確に通る直線を引く、その作業が単回帰分析なのです。この直線の傾きと切片を求めることが、分析の主な目的になります。

単回帰分析の結果は、以下のような式で表されます。Y = a + bX という形です。ここでYは目的変数（予測したい値）、Xは説明変数（予測に使う値）、aは切片、bは傾きを表します。

傾き（b）は「Xが1増えたときにYがいくら増えるか」を示す重要な値です。正の値なら正の相関、負の値なら負の相関があることを意味します。切片（a）はX=0のときのYの値です。これらのパラメータを正確に計算することが、精度の高い予測につながります。

傾きbと切片aの計算式は統計学の教科書で定義されています。傾きbは、X・Yの共分散をXの分散で割った値です。切片aは、Yの平均値からb掛けるXの平均値を引いた値になります。

実務ではExcelやPythonなどのツールが自動的に計算してくれるため、手計算することはまれです。しかし、この計算式の背景にある考え方を理解することで、結果の解釈がより正確になり、モデルの信頼性を評価する力が身につきます。

回帰式を求めた後、その精度を評価することは非常に重要です。決定係数R二乗という指標を使って、モデルがデータをどの程度説明できているかを判定します。

決定係数は0から1の範囲の値で、1に近いほどモデルの精度が高いことを意味します。例えば0.8なら、データの変動の80パーセントをこのモデルで説明できるということです。実務では、この値を見て、さらに説明変数を追加する必要があるか、それとも現在のモデルで十分かを判断します。

単回帰分析は、ビジネスシーンで頻繁に活用されています。マーケティング部門では広告予算と売上の関係を分析し、最適な広告費を決定します。製造業では原材料費と製品コストの関係を把握し、原価計算に活かします。

重要なのは、単回帰分析はあくまで相関関係を示すツールであって、因果関係を証明するものではないということです。分析結果を実務に適用する際には、ドメイン知識と組み合わせて、慎重に判断する必要があります。

単回帰分析を学ぶ際に気をつけるべき点がいくつかあります。第一に、線形関係を仮定しているため、非線形なデータには適用できません。第二に、外れ値の影響を大きく受ける可能性があります。分析前に必ずデータの分布を確認してください。

また、複数の説明変数がある場合は、単回帰ではなく重回帰分析を使う必要があります。データの特性を見極め、適切な手法を選択することが、正確な分析への第一歩です。

単回帰分析をマスターしたら、次は重回帰分析へ進むことをお勧めします。複数の要因を考慮した、より実践的な予測モデルが構築できるようになります。また、仮説検定や信頼区間といった統計的な考え方も学ぶと、より深い分析ができるようになるでしょう。

データサイエンスの道は段階的な学習を大切にします。基礎をしっかり理解することで、応用的な手法へのアクセスがぐんと簡単になります。