データで真実を掴め!「なんとなく」を確信に変える重回帰分析とP値の読み解き方

重回帰分析の仕組みと出力結果の読み解き方を解説したグラフィックレコーディング風のインフォグラフィック。「直感から事実へ」をテーマに、以下の4つのブロックで構成されている。 左側「RStudioで実践」:所得、収容力、学業時間の3つの原因から、結果である「大学進学率」を予測するモデルの図解。 中央「英語の出力結果を解読」:Estimate(影響パワー)、t値(証拠スコア)、P値(まぐれ当たり確率)の表。その下に「P値0.05の壁」という基準があり、所得と収容力は0.05未満で「合格(有意)」、学業時間は0.05以上で「不合格(まぐれの範囲)」とジャッジされている。 右上「統計理論の3ステップ」:t値の算出式、自由度(df)の算出式、そしてP値を示すt分布のベルカーブが描かれ、裏側の理論を解説。 右下「圧倒的な手数で真実へ!」:ブラックボックスに頼らず理論を理解する重要性を伝える熱いメッセージと電球のアイコン。 実践・DXマネジメント

はじめに:スプレッドシートから一歩先へ!直感を「事実」に変えるデータ分析

こんにちは、メンターHSです。「社会人チャンネル」へようこそ。

ビジネスの現場や後輩への指導において、「なんとなくこれが原因だろう」という直感に頼ることはありませんか?もちろん直感も大切ですが、それだけでは周囲を納得させることはできません。

一つ前のブログ記事は「スプレッドシートで実践する重回帰分析の超入門」をお届けしましたが、今回はさらにその知識を深める実践編です。

今回は、直感を「揺るぎない事実」に変える強力な武器、「重回帰分析」と「P値」について、本格的なデータ分析ツールである「R(RStudio)」を使って解説します。

表面的なツールの使い方だけでなく、クリアな思考でデータと向き合うための「裏側の理論」まで、スッキリと分かりやすくお伝えします。

RStudioで実践!3つの原因から結果を予測する

まずは、実際にRStudioを使って手を動かし、検証した一連の流れを共有します。今回も実際の都道府県データを用いました。

(Rのコード画面)

キャプション例:ステップ1〜4まで、シンプルにコードを記述して実行します。

今回実行したのは、以下の2点です。

  1. 重回帰分析の実行: 「大学進学率(EnrollRate)」という結果に対して、
    「所得(Income)」
    「収容力(Capacity)」
    「学業時間(StudyTime)」
    という3つの原因が、それぞれどれくらい影響しているか予測する計算式(モデル)を作成しました。
  2. P値の算出: 計算された影響度が「たまたまのまぐれ」ではないかをテストしました。

正しくデータが読み込めているか、最初の数行を確認したのが以下の画面です。

(head(df_clean)の出力結果)

キャプション例:各都道府県のデータが、分析しやすいように英語の列名で整理されています。

英語の出力結果を解読!翻訳テーブル

分析を実行すると、画面には以下のような英語と数字の羅列が出力されます。

(summary(model)の出力結果)

キャプション例:ここから統計的な「真実」が明らかになります。

一見すると難解で戸惑うかもしれませんが、プロが見るべきポイントは決まっています。出力される専門用語を、スラスラわかる言葉に翻訳したのが以下の表です。

Rの項目名日本語の読み方意味・役割(中学生レベルで解説)
(Intercept)切片(せっぺん)「基本料金」。もし所得や学業時間が全部ゼロでも、最低限これくらいはあるというスタート地点。
Income所得「経済力の影響」。1人当たり県民所得のこと。
Capacity収容力「環境の影響」。大学が近くにあるかどうか。
StudyTime学業時間「努力の影響」。学校外での勉強時間。
Estimate推定値(係数)「影響パワー」。プラスなら「増える」、マイナスなら「減る」。
Std. Error標準誤差「ブレ幅」。この推定がどれくらいブレる可能性があるか。(今回は気にしなくてOK)
t valuet値「証拠スコア」。この数字が大きいほど、「関係がある!」という証拠が強い。
Pr(>|t|)P値(ピーち)「まぐれ当たり確率」。ここが 0.05未満 なら合格!「まぐれではない」と認定される。

この表と、先ほどの実際の出力結果(画像3枚目)を照らし合わせることで、残酷かつ理知的な事実が見えてきます。出力結果(画像3枚目)の一番右側の「Pr(>|t|)」の列に注目してください。

  • 所得(0.000944)と収容力(0.000120)は、基準の0.05を大きく下回っており、進学率に強く影響している(まぐれではない)
  • 学業時間(0.363285)は0.05を上回っており、データ上はまぐれの範囲を出ない

数字は嘘をつきません。「勉強時間が長いほど進学率が高いはずだ」という思い込みを捨てて事実を受け入れることが、正しいアクションの第一歩なのです。

画面の裏側で何が起きている?統計理論の3ステップ

さて、ここからは少しレベルアップです。

ボタン一つで結果が出る便利な時代ですが、ビジネスの最前線で戦うプロフェッショナルとして「画面の見えない部分(理論理屈)」を知っておくことは非常に重要です。

P値が小さければ「まぐれではない」と判断されます。

重回帰分析において、P値を算出するためのt検定(t-test)は、「各説明変数(原因)が目的変数(結果)に対して統計的に有意な影響を与えているか」を厳密に判定するために行われます。コンピュータの裏側では、クリアな頭脳のごとく、以下の3つのステップが瞬時に計算されています。

  1. t値(t統計量)の算出影響パワーである「回帰係数」を、ブレ幅である「標準誤差」で割って、証拠の強さを表すt値を求めます。$t = \frac{\text{回帰係数}}{\text{標準誤差}}$
  2. 自由度(Degree of Freedom: df)の決定データ数($n$)と説明変数の数($k$)から、以下の式で自由度を決定します。$df = n – k – 1$
  3. P値(P-value)の算出算出した「t値」と「自由度」をt分布にあてはめてP値を求めます。この数字が小さいほど「まぐれではない」という重要性が高まります。

判断の目安として、P値が一般的に0.05(5%)未満であれば、「その変数は目的変数に有意な影響を与えている」と判断し、統計的に有意(Significant)であるといえます。

おわりに:圧倒的な手数で真実を導き出そう

スプレッドシートから一歩踏み出し、Rを使って一瞬でP値を導き出しましたが、その裏には精緻な統計理論が走っています。

便利なブラックボックスに頼り切るのではなく、「なぜそうなるのか?」と自ら問いを立て、理論を理解しようとする姿勢。そして、実際に何度もデータと向き合い、自らの手を動かして検証する圧倒的な手数(行動量)

誰かに言われたからやるのではなく、真実を知りたいという純粋な熱量を持ってデータに向き合うことこそが、私たちを正しい意思決定へと導いてくれるのです。

あなたも手元のデータで、直感を事実に変える第一歩を踏み出してみましょう。

今日も最後までお読みいただきありがとうございました。