線形回帰モデルに“一定の分散”があるとはどういう意味ですか?
On 12月 23, 2020 by admin誤差項に「一定の分散」があるとはどういう意味ですか?ご覧のとおり、1つの従属変数と1つの独立変数を持つデータがあります。一定の分散は、線形回帰の仮定の1つです。等分散性とはどういう意味か疑問に思います。 500行ある場合でも、明らかに一定である単一の分散値があります。どの変数で分散を比較する必要がありますか?
回答
つまり、予測値に対して個々の誤差をプロットすると、誤差の予測値の分散は次のようになります。絶え間ない。下の図の赤い矢印を参照してください。赤い線の長さ(分散のプロキシ)は同じです。
コメント
- わかりました。!!ただし、これは仮定であるため、'モデルを実行する前に、仮定を検証する必要があります。そして、なぜこの仮定が必要なのですか
- 一部の仮定は、モデルの実行後にのみテストできます。モデルの計算は単なる数学であり、モデルの解釈と同じではありません。
- 範囲は分散ペンギンナイトと等しくないため、ここで表現を更新することをお勧めします。
- 分散の仮定がある場合が間違っている場合、それは通常、標準誤差が間違っていることを意味し、仮説検定は間違った結論を引き出す可能性があります。 (別のジョン)
- 少し違います。 '不均一分散性は、必ずしもベータの標準誤差が間違っていることを意味するとは言いませんが、OLS推定量はもはや最も効率的な不偏推定量ではありません。つまり、一定の分散がある場合(おそらく、Yの変換による)、または非定常性を正確に考慮した場合(おそらく、一般化最小二乗推定量を介して)、より多くのパワー/精度を得ることができます。
回答
これは、数学に不安がある人でも、いくつかの数式を見ると役立つことがわかった場所です。 (私はあなたがそうすることを必ずしも示唆していません)。単純な線形回帰モデルは次のとおりです。
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N(0、\ sigma ^ 2_ \ varepsilon)$$ここで注意すべき重要な点は、データ内の意味のある情報(つまり、「$ \ beta_0 + \ beta_1X $」)を推定すると、このモデルが明示的に示すことです。 )ホワイトノイズ以外に何も残っていません。さらに、エラーは通常として分散されます。分散は$ \ sigma ^ 2_ \ varepsilon $です。
$ \ sigma ^ 2_ \ varepsilon $は変数ではないことを理解することが重要です(ただし、中学校レベルの代数では、それをそれと呼ぶでしょう)。変化しません。$ X $が変化します。$ Y $が変化します。誤差項$ \ varepsilon $は、ランダムに変化します。つまり、確率変数。ただし、パラメータ($ \ beta_0、〜\ beta_1、〜\ sigma ^ 2_ \ varepsilon)$は、私たちが知らない値のプレースホルダーであり、変化しません。代わりに、それらは不明な定数です。この議論のこの事実の結果は、$ X $が何であっても(つまり、そこにどの値がプラグインされていても)、 $ \ sigma ^ 2_ \ varepsilon $は同じままです。つまり、誤差/残差の分散は一定です。対比(およびおそらくより明確にするため)のために、次のモデルを検討してください。
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N(0、f(X))\\〜\\ \ text {where} f(X)= \ exp(\ gamma_0 + \ gamma_1 X )\\ \ text {and} \ gamma_1 \ ne 0 $$この場合、$ X $(3行目から開始)の値をプラグインし、それを関数$ f(X)$に渡して、その正確な値でを取得するエラー分散 $ X $のおかげです。次に、通常どおり残りの方程式を進めます。
上記の説明は、仮定の性質を理解するのに役立つはずです。質問は、それを評価する方法についても尋ねます。基本的に2つのアプローチがあります:正式な仮説検定とプロットの調査です。不均一分散のテストは、実験的なデータ(つまり、$ X $の固定値でのみ発生する)またはANOVAがある場合に使用できます。ここでは、そのようなテストについて説明します: F比ではなく分散の同等性のLeveneテストを行う理由。しかし、私はプロットを見るのが最善だと思う傾向があります。 @Penquin_Knightは、等分散性が近似値に対して得られるモデルの残差をプロットすることにより、一定の分散がどのように見えるかを示す良い仕事をしました。不均一分散性は、生データのプロット、またはスケール位置(スプレッドレベルとも呼ばれる)プロットでも検出できる可能性があります。Rは、plot.lm(model, which=2)
を呼び出すことで、後者を便利にプロットします。これは、近似値に対する残差の絶対値の平方根であり、 lowess 曲線がうまくオーバーレイされています。最小フィットは、傾斜ではなく平坦である必要があります。
以下のプロットを検討してください。これらのプロットは、これら3つの異なるタイプの図で等分散性データと不均一分散性データがどのように見えるかを比較しています。上の2つの不均一分散プロットの漏斗の形状と、最後のプロットの上方に傾斜した最も低い線に注意してください。
完全を期すために、これらのデータを生成するために使用したコードを次に示します。
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
コメント
- ありがとうございます非常に役立ちます 。また、この仮定が素人の言葉で必要な理由を説明していただけますか
- 'どういたしまして、@ Mukul。等分散性(一定の分散)の仮定は、OLS推定量(つまり、ベータを推定するためにソフトウェアが使用するデフォルトの手順)を、生成するすべての推定手順の中で最も狭い標準誤差を持つベータのサンプリング分布を生成する推定手順にするために必要です。真の値を中心としたサンプリング分布。 IE、OLS推定量は最小分散不偏推定量である必要があります。
- 応答変数がバイナリの場合、次のように分布されます。二項。 IE、上記の線形回帰モデルの多くの部分は不適切です。これらの問題の1つは、二項式の分散が平均の関数であるため(平均:$ p $、分散:$(p(1-p))/ n)$)、等分散性の仮定に違反していることです。これらのことをよりよく理解するには、ここで私の答えを読むと役立つ場合があります: difference-between-logit-and-probit-models コンテキスト。
- @gungコメントでは、最小分散不偏推定器というフレーズのすべての単語にイタリック体を付けています。不均一分散では、推定量の効率が低下する(分散が大きくなる)ことを理解していますが、バイアスもかかりますか?
- @ user1205901、バイアスがないままです。
コメントを残す