Hva betyr å ha “ konstant varians ” i en lineær regresjonsmodell?
On desember 23, 2020 by adminHva betyr det å ha «konstant varians» i feiluttrykket? Slik jeg ser det, har vi data med en avhengig variabel og en uavhengig variabel. Konstant varians er en av antagelsene om lineær regresjon. Jeg lurer på hva homoscedasticity betyr. Siden selv om jeg har 500 rader, ville jeg ha en enkelt variansverdi som åpenbart er konstant. Med hvilken variabel skal jeg sammenligne variansen?
Svar
Det betyr at når du plotter den individuelle feilen mot den forutsagte verdien, bør variansen til den feilforutsagte verdien være konstant. Se de røde pilene på bildet nedenfor, lengden på de røde linjene (en proxy av dens varians) er den samme.
Kommentarer
- Ok forstått. !! Men siden det er en antagelse ikke ' t, må vi validere antagelsen før vi kjører modellen. Og hvorfor trenger vi denne antagelsen
- Noen forutsetninger kan bare testes etter at modellen er kjørt. Å beregne en modell er bare matematikk og ikke det samme som å tolke en modell.
- Området tilsvarer ikke variansen Penguin Knight, så det kan være lurt å oppdatere ordlyden her.
- Hvis avviksantagelsen din er er feil, så vil det vanligvis bety at standardfeilene er feil, og enhver hypotesetesting kan trekke feil konklusjoner. (En annen John)
- Jeg skiller meg litt ut. Jeg vil ikke ' ikke si at heteroscedasticitet nødvendigvis betyr at standardfeilene i betaene dine er feil, men heller at OLS-estimatoren ikke lenger er den mest effektive objektive estimatoren. Det vil si at du kan få mer kraft / presisjon hvis du enten hadde konstant varians (kanskje på grunn av en transformasjon av Y), eller hvis du nøyaktig tok hensyn til ikke-konstansen (kanskje via estimatoren for generelle minste kvadrater).
Svar
Dette er et sted der jeg har funnet å se på noen formler hjelper, selv for personer med noe matematisk angst (Jeg antyder ikke at du gjør det, nødvendigvis). Den enkle lineær regresjonsmodellen er dette:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {hvor} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Det som er viktig å merke seg her er at denne modellen eksplisitt sier når du har estimert den meningsfulle informasjonen i dataene (at «$ \ beta_0 + \ beta_1X $» ) det er ikke annet enn hvit støy. Dessuten fordeles feilene som en Normal med en avvik på $ \ sigma ^ 2_ \ varepsilon $.
Det er viktig å innse at $ \ sigma ^ 2_ \ varepsilon $ ikke er en -variabel (selv om vi på algebra på ungdomsskolenivå vil kalle det det). Det varierer ikke. $ X $ varierer. $ Y $ varierer. Feilbegrepet, $ \ varepsilon $, varierer tilfeldig ; det vil si at det er en tilfeldig variabel . Parameterne ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ er imidlertid plassholdere for verdier vi ikke vet – de varierer ikke. , de er ukjente konstanter . Resultatet av dette faktum for denne diskusjonen er at uansett hva $ X $ er (dvs. hvilken verdi som er plugget inn der), $ \ sigma ^ 2_ \ varepsilon $ forblir den samme. Med andre ord, variansen til feilene / restene er konstant. For kontrastens skyld (og kanskje større klarhet), vurder denne modellen:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {hvor} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {hvor} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {and} \ gamma_1 \ ne 0 $$ I dette tilfellet plugger vi inn en verdi for $ X $ (starter på tredje linje), sender den gjennom funksjonen $ f (X) $ og får feilvarians som oppnår på den nøyaktige verdien ue av $ X $. Deretter beveger vi oss gjennom resten av ligningen som vanlig.
Diskusjonen ovenfor skal hjelpe til med å forstå arten av antagelsen; spørsmålet stiller også om hvordan man vurderer det. Det er i utgangspunktet to tilnærminger: formelle hypotesetester og undersøkelse av plott. Tester for heteroscedasticitet kan brukes hvis du har eksperimentelle data (dvs. bare forekommer med faste verdier på $ X $) eller en ANOVA. Jeg diskuterer noen slike tester her: Hvorfor Levene test av likhet med varians i stedet for F-ratio . Imidlertid har jeg en tendens til å tenke å se på tomter er best. @Penquin_Knight har gjort en god jobb med å vise hvordan konstant varians ser ut ved å plotte restene av en modell der homoscedasticitet oppnås mot de tilpassede verdiene. Heteroscedasticity kan også muligens oppdages i et plot av rådataene, eller i en skala-location (også kalt spread-level) plot.R plotter praktisk sistnevnte for deg med et kall til plot.lm(model, which=2)
; det er kvadratroten til de absolutte verdiene til residualene mot de tilpassede verdiene, med en lowess kurve som er nyttig overlagt. Du vil at den dårlige passformen skal være flat, ikke skrå.
Vurder plottene nedenfor, som sammenligner hvordan homoscedastiske vs. heteroscedastiske data kan se ut i disse tre forskjellige typer figurer. Legg merke til traktformen for de to øvre heteroscedastiske tomtene, og den oppover skrånende lavlinjen i den siste.
For fullstendighet, her er koden jeg brukte til å generere disse dataene:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Kommentarer
- takk det er veldig hjelpsom . Kan du også forklare hvorfor trenger vi denne antagelsen på et lekmannsspråk
- Du ' er velkommen, @Mukul. Antakelsen om homoscedasticity (konstant varians) er nødvendig for å gjøre OLS-estimatoren (dvs. standardprosedyren som programvaren bruker for å estimere betaversjoner) til estimeringsprosedyren som vil produsere samplingsfordelinger av betaer som har de smaleste standardfeil av alle estimeringsprosedyrene som gir samplingsfordelinger som er sentrert på den sanne verdien. IE, er det nødvendig at OLS-estimatoren er minimal varians upartisk estimator .
- Hvis responsvariabelen din er binær , blir den distribuert som en binomial. IE, mange deler av den lineære regresjonsmodellen beskrevet ovenfor er upassende. 1 av disse problemene er at, siden variansen til et binomium er en funksjon av gjennomsnittet (gjennomsnitt: $ p $, varians: $ (p (1-p)) / n) $), antas antagelsen om homoscedasticitet. For å forstå disse tingene bedre, kan det hjelpe å lese svaret mitt her: forskjellen mellom logit-og-probit-modeller , selv om den ble skrevet i en annen sammenheng.
- @gung i kommentaren din setter du kursiv på alle ordene i frasen minimal varians upartisk estimator. Jeg forstår at med heteroscedasticitet vil estimatoren bli mindre effektiv (mer varians), men vil den også være partisk?
- @ user1205901, den forblir upartisk.
Legg igjen en kommentar