Co oznacza “ stałą wariancję ” w modelu regresji liniowej?
On 23 grudnia, 2020 by adminCo oznacza „stała wariancja” w elemencie błędu? Jak widzę, mamy dane z jedną zmienną zależną i jedną zmienną niezależną. Stała wariancja jest jednym z założeń regresji liniowej. Zastanawiam się, co oznacza homoskedastyczność. Ponieważ nawet gdybym miał 500 wierszy, miałbym jedną wartość wariancji, która jest oczywiście stała. Z jaką zmienną powinienem porównać wariancję?
Odpowiedź
Oznacza to, że kiedy wykreślasz indywidualny błąd z przewidywaną wartością, wariancja przewidywanej wartości błędu powinna być stały. Zobacz czerwone strzałki na poniższym obrazku, długość czerwonych linii (proxy ich wariancji) jest taka sama.
Komentarze
- OK, rozumiem. !! Ale ponieważ jest to założenie, nie ' t, musimy zweryfikować to założenie przed uruchomieniem modelu. Dlaczego potrzebujemy tego założenia?
- Niektóre założenia można przetestować dopiero po uruchomieniu modelu. Obliczanie modelu to tylko matematyka, a nie to samo, co interpretacja modelu.
- Zakres nie równa się wariancji Penguin Knight, więc możesz tutaj zaktualizować swoje sformułowanie.
- Jeśli twoje założenie wariancji jest błędne, oznacza to zazwyczaj, że błędy standardowe są błędne, a testowanie hipotez może prowadzić do błędnych wniosków. (Inny John)
- Trochę się różnią. Nie ' nie powiedziałbym, że heteroskedastyczność koniecznie oznacza, że standardowe błędy twoich wersji beta są błędne, ale raczej, że estymator OLS nie jest już najbardziej wydajnym nieobciążonym estymatorem. Oznacza to, że możesz uzyskać większą moc / precyzję, jeśli albo masz stałą wariancję (być może z powodu transformacji Y), albo jeśli dokładnie wziąłeś pod uwagę niestałość (być może za pomocą uogólnionego estymatora najmniejszych kwadratów).
Odpowiedź
To miejsce, w którym odkryłem, że niektóre formuły są pomocne, nawet dla osób, które mają pewne obawy matematyczne (Nie sugeruję, że musisz to robić). Prosty model regresji liniowej jest następujący:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Ważne jest tutaj, aby pamiętać, że ten model wyraźnie określa, kiedy oszacowano znaczące informacje w danych (to jest „$ \ beta_0 + \ beta_1X $” ) nie pozostaje nic poza białym szumem. Ponadto błędy są rozkładane jako Normalne z wariancją $ \ sigma ^ 2_ \ varepsilon $.
Ważne jest, aby zdać sobie sprawę, że $ \ sigma ^ 2_ \ varepsilon $ nie jest zmienną (chociaż w algebrze na poziomie gimnazjum tak to nazwał). Nie zmienia się. $ X $ jest różne. $ Y $ jest różne. Termin błędu, $ \ varepsilon $, zmienia się losowo ; to jest zmienna losowa . Jednak parametry ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ są symbolami zastępczymi dla wartości, których nie znamy – nie zmieniają się. Zamiast tego są to nieznane stałe . Konsekwencją tego faktu w tej dyskusji jest to, że bez względu na to, czym jest $ X $ (tj. jaka wartość jest tam wstawiona), $ \ sigma ^ 2_ \ varepsilon $ pozostaje bez zmian. Innymi słowy, wariancja błędów / reszt jest stała. Ze względu na kontrast (i być może dla większej przejrzystości) rozważmy następujący model:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {where} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {and} \ gamma_1 \ ne 0 $$ W tym przypadku wstawiamy wartość $ X $ (zaczynając od trzeciej linii), przepuszczamy ją przez funkcję $ f (X) $ i otrzymujemy wariancja błędu, która uzyskuje przy tej dokładnej wartości ue z $ X $. Następnie jak zwykle przechodzimy przez resztę równania.
Powyższa dyskusja powinna pomóc w zrozumieniu natury tego założenia; pytanie dotyczy również tego, jak to ocenić . Istnieją zasadniczo dwa podejścia: formalne testowanie hipotez i badanie wykresów. Testy heteroskedastyczności mogą być używane, jeśli masz dane eksperymentalne (tj. Takie, które występują tylko przy ustalonych wartościach X $) lub ANOVA. Omówię tutaj kilka takich testów: Dlaczego test Levenea równości wariancji zamiast współczynnika F . Jednak wydaje mi się, że najlepiej jest patrzeć na działki. @Penquin_Knight wykonał dobrą robotę, pokazując, jak wygląda stała wariancja, wykreślając reszty modelu, w którym uzyskuje się homoskedastyczność względem dopasowanych wartości. Heteroskedastyczność można również prawdopodobnie wykryć na wykresie surowych danych lub na wykresie lokalizacji skali (zwanym również poziomem rozrzutu).R wygodnie kreśli to drugie za pomocą wywołania plot.lm(model, which=2)
; jest to pierwiastek kwadratowy wartości bezwzględnych reszt w stosunku do wartości dopasowanych, z pomocnym nałożeniem krzywej lowess . Chcesz, aby lowess fit było płaskie, a nie nachylone.
Rozważ poniższe wykresy, które porównują, jak mogą wyglądać dane homoskedastyczne i heteroskedastyczne na tych trzech różnych typach figur. Zwróć uwagę na kształt lejka dla dwóch górnych heteroskedastycznych wykresów i nachyloną do góry linię dolną na ostatnim.
Dla kompletności, oto kod, którego użyłem do wygenerowania tych danych:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Komentarze
- dziękuję bardzo pomocny . Czy możesz również wyjaśnić, dlaczego potrzebujemy tego założenia w języku laików?
- Ty ' witamy, @Mukul. Założenie o homoskedastyczności (stałej wariancji) jest wymagane, aby estymator OLS (tj. Domyślne oprogramowanie proceduralne używane do oszacowania bety) był procedurą estymacji, która zapewni rozkłady próbkowania beta, które mają najwęższe błędy standardowe ze wszystkich procedur szacowania, które dają rozkłady próbkowania wyśrodkowane na wartości rzeczywistej. IE, konieczne jest, aby estymator OLS był estymatorem nieobciążonej wariancji o minimalnej wartości .
- Jeśli zmienna odpowiedzi jest binarna , zostanie rozłożona dwumian. IE, wiele części opisanego powyżej modelu regresji liniowej jest niewłaściwych. Jedną z tych kwestii jest to, że skoro wariancja dwumianu jest funkcją średniej (średnia: $ p $, wariancja: $ (p (1-p)) / n) $), założenie o homoskedastyczności zostaje naruszone. Aby lepiej zrozumieć te rzeczy, pomocne może być przeczytanie mojej odpowiedzi tutaj: różnica-między-logit-i-probit-modelami , chociaż została napisana w innym kontekst.
- @gung w swoim komentarzu umieszczasz kursywę na wszystkich słowach w wyrażeniu nieobciążony estymator minimalnej wariancji. Rozumiem, że przy heteroskedastyczności estymator stanie się mniej wydajny (większa wariancja), ale czy też stanie się stronniczy?
- @ user1205901, pozostaje bezstronny.
Dodaj komentarz