Was bedeutet es, “ konstante Varianz ” in einem linearen Regressionsmodell zu haben?
On Dezember 23, 2020 by adminWas bedeutet „konstante Varianz“ im Fehlerterm? Aus meiner Sicht haben wir Daten mit einer abhängigen Variablen und einer unabhängigen Variablen. Die konstante Varianz ist eine der Annahmen der linearen Regression. Ich frage mich, was Homoskedastizität bedeutet. Denn selbst wenn ich 500 Zeilen hätte, hätte ich einen einzigen Varianzwert, der offensichtlich konstant ist. Mit welcher Variablen soll ich die Varianz vergleichen?
Antwort
Wenn Sie den einzelnen Fehler gegen den vorhergesagten Wert zeichnen, sollte die Varianz des vorhergesagten Fehlerwerts sein Konstante. Siehe die roten Pfeile im Bild unten, die Länge der roten Linien (ein Proxy für ihre Varianz) ist gleich.
Kommentare
- Ok Verstanden. !! Da es sich jedoch um eine Annahme handelt, die nicht ' ist, müssen wir die Annahme überprüfen, bevor wir das Modell ausführen. Und warum brauchen wir diese Annahme?
- Einige Annahmen können erst getestet werden, nachdem das Modell ausgeführt wurde. Das Berechnen eines Modells ist nur mathematisch und nicht dasselbe wie das Interpretieren eines Modells.
- Der Bereich entspricht nicht der Varianz Penguin Knight, daher möchten Sie möglicherweise Ihren Wortlaut hier aktualisieren.
- Wenn Ihre Varianz angenommen wird falsch ist, dann bedeutet dies normalerweise, dass die Standardfehler falsch sind und jeder Hypothesentest die falschen Schlussfolgerungen ziehen könnte. (Ein anderer John)
- Ich unterscheide mich leicht. Ich würde nicht ' sagen, dass Heteroskedastizität notwendigerweise bedeutet, dass die Standardfehler Ihrer Betas falsch sind, sondern dass der OLS-Schätzer nicht mehr der effizienteste unverzerrte Schätzer ist. Das heißt, Sie könnten mehr Leistung / Präzision erzielen, wenn Sie entweder eine konstante Varianz hätten (möglicherweise aufgrund einer Transformation von Y) oder wenn Sie die Nichtkonstanz genau berücksichtigt hätten (möglicherweise über den verallgemeinerten Schätzer der kleinsten Quadrate).
Antwort
Dies ist ein Ort, an dem ich festgestellt habe, dass das Betrachten einiger Formeln hilfreich ist, selbst für Menschen mit mathematischen Ängsten (Ich schlage nicht vor, dass Sie dies unbedingt tun). Das einfache lineare Regressionsmodell lautet wie folgt:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Was hier zu beachten ist, ist, dass dieses Modell explizit angibt, sobald Sie die aussagekräftigen Informationen in den Daten geschätzt haben (das ist „$ \ beta_0 + \ beta_1X $“). ) Es bleibt nichts als weißes Rauschen übrig. Außerdem werden die Fehler als Normal mit einer Varianz von $ \ sigma ^ 2_ \ varepsilon $ verteilt.
Es ist wichtig zu erkennen, dass $ \ sigma ^ 2_ \ varepsilon $ keine -Variable ist (obwohl wir dies in der Algebra der Junior High School tun würde es so nennen). Es variiert nicht. $ X $ variiert. $ Y $ variiert. Der Fehlerterm $ \ varepsilon $ variiert zufällig , dh es ist eine Zufallsvariable . Die Parameter ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ sind jedoch Platzhalter für Werte, die wir nicht kennen – sie variieren nicht. Stattdessen , sie sind unbekannte Konstanten . Das Ergebnis dieser Tatsache für diese Diskussion ist, dass unabhängig davon, was $ X $ ist (dh welcher Wert dort eingesteckt ist), $ \ sigma ^ 2_ \ varepsilon $ bleibt gleich. Mit anderen Worten, die Varianz der Fehler / Residuen ist konstant. Betrachten Sie das Modell aus Gründen des Kontrasts (und möglicherweise der Klarheit) wie folgt:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {where} f (X) = \ exp (\ gamma_0 + \ gamma_1 X. ) \\ \ text {und} \ gamma_1 \ ne 0 $$ In diesem Fall stecken wir einen Wert für $ X $ (beginnend in der dritten Zeile) ein, übergeben ihn durch die Funktion $ f (X) $ und erhalten die Fehlervarianz, die bei genau diesem Wert erhält ue von $ X $. Dann gehen wir wie gewohnt durch den Rest der Gleichung.
Die obige Diskussion soll helfen, die Art der Annahme zu verstehen. Die Frage fragt auch, wie man das bewertet . Grundsätzlich gibt es zwei Ansätze: formale Hypothesentests und Untersuchung von Plots. Tests auf Heteroskedastizität können verwendet werden, wenn Sie experimentelle Daten (d. H. Die nur bei festen Werten von $ X $ auftreten) oder eine ANOVA haben. Ich diskutiere hier einige solche Tests: Warum Levene-Test der Varianzgleichheit anstelle des F-Verhältnisses . Ich denke jedoch, dass es am besten ist, sich Grundstücke anzusehen. @Penquin_Knight hat gute Arbeit geleistet, um zu zeigen, wie konstante Varianz aussieht, indem die Residuen eines Modells, bei dem Homoskedastizität erzielt wird, gegen die angepassten Werte aufgetragen werden. Heteroskedastizität kann möglicherweise auch in einem Diagramm der Rohdaten oder in einem Diagramm mit Skalenort (auch als Spread-Level bezeichnet) festgestellt werden.R zeichnet letzteres bequem für Sie mit einem Aufruf von plot.lm(model, which=2)
auf; Es ist die Quadratwurzel der absoluten Werte der Residuen gegenüber den angepassten Werten, wobei eine lowess -Kurve hilfreich überlagert wird. Sie möchten, dass die niedrige Passform flach und nicht geneigt ist.
Betrachten Sie die folgenden Diagramme, in denen verglichen wird, wie homoskedastische und heteroskedastische Daten in diesen drei verschiedenen Arten von Abbildungen aussehen könnten. Beachten Sie die Trichterform für die oberen beiden heteroskedastischen Diagramme und die nach oben abfallende niedrige Linie im letzten.
Der Vollständigkeit halber ist hier der Code, mit dem ich diese Daten generiert habe:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Kommentare
- danke sehr hilfreich . Können Sie auch erklären, warum wir diese Annahme in einer Laiensprache benötigen?
- Sie ' sind willkommen, @Mukul. Die Annahme der Homoskedastizität (konstante Varianz) ist erforderlich, um den OLS-Schätzer (dh die Standardprozedursoftware zur Schätzung von Betas) zum Schätzverfahren zu machen, das Stichprobenverteilungen von Betas erzeugt, die die engsten Standardfehler aller Schätzverfahren aufweisen, die ergeben Stichprobenverteilungen, die auf dem wahren Wert zentriert sind. IE, es ist erforderlich, dass der OLS-Schätzer der unverzerrte Schätzer für die minimale Varianz ist.
- Wenn Ihre Antwortvariable binär ist, wird sie als verteilt ein Binomial. IE, viele Teile des oben beschriebenen linearen Regressionsmodells sind unangemessen. Eines dieser Probleme ist, dass die Annahme der Homoskedastizität verletzt wird, da die Varianz eines Binomials eine Funktion des Mittelwerts ist (Mittelwert: $ p $, Varianz: $ (p (1-p)) / n) $). Um diese Dinge besser zu verstehen, kann es hilfreich sein, meine Antwort hier zu lesen: Unterschied zwischen Logit- und Probit-Modellen , obwohl sie in einer anderen geschrieben wurde Kontext.
- @gung In Ihrem Kommentar setzen Sie alle Wörter im unverzerrten Schätzer für die minimale Varianz kursiv. Ich verstehe, dass der Schätzer mit der Heteroskedastizität weniger effizient wird (mehr Varianz), aber auch voreingenommen wird?
- @ user1205901, er bleibt unvoreingenommen.
Schreibe einen Kommentar