Vad betyder att ha “ konstant varians ” i en linjär regressionsmodell?
On december 23, 2020 by adminVad betyder det att ha ”konstant varians” i feltermen? Som jag ser det har vi en data med en beroende variabel och en oberoende variabel. Konstant varians är ett av antagandena om linjär regression. Jag undrar vad homoscedasticitet betyder. Eftersom även om jag har 500 rader, skulle jag ha ett enda variansvärde som uppenbarligen är konstant. Med vilken variabel ska jag jämföra variansen?
Svar
Det betyder att när du ritar det enskilda felet mot det förutspådda värdet, ska variansen för det felförutsägda värdet vara konstant. Se de röda pilarna på bilden nedan, längden på de röda linjerna (en proxy för dess varians) är desamma.
Kommentarer
- Ok förstod. !! Men eftersom det är ett antagande behöver vi inte ' t måste vi validera antagandet innan vi kör modellen. Och varför behöver vi detta antagande
- Vissa antaganden kan bara testas efter att modellen har körts. Att beräkna en modell är bara matematik och inte detsamma som att tolka en modell.
- Området motsvarar inte variansen Penguin Knight så du kanske vill uppdatera din formulering här.
- Om ditt antagande om varians är fel, då kommer det vanligtvis att betyda att standardfelen är felaktiga och eventuella hypotesprov kan dra fel slutsatser. (En annan John)
- Jag skiljer mig något. Jag skulle ' inte säga att heteroscedasticitet nödvändigtvis betyder att standardfelen i dina beta är fel, utan snarare att OLS-uppskattaren inte längre är den mest effektiva opartiska uppskattaren. Det vill säga att du kan få mer kraft / precision om du antingen hade konstant varians (kanske på grund av en transformation av Y), eller om du exakt tog hänsyn till icke-konstansen (kanske via den generaliserade minsta kvadrat-uppskattaren).
Svar
Det här är en plats där jag har hittat att titta på några formler hjälper, även för personer med matematisk ångest (Jag föreslår inte att du gör det, nödvändigtvis). Den enkla linjär regressionsmodellen är den här:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {där} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Det som är viktigt att notera här är att den här modellen uttryckligen anger när du ”har uppskattat den meningsfulla informationen i data (att” $ \ beta_0 + \ beta_1X $ ” ) det finns inget annat än vitt brus. Dessutom fördelas felen som en Normal med en avvikelse på $ \ sigma ^ 2_ \ varepsilon $.
Det är viktigt att inse att $ \ sigma ^ 2_ \ varepsilon $ inte är en -variabel (även om vi i algebra på gymnasienivå skulle jag kalla det så). Det varierar inte. $ X $ varierar. $ Y $ varierar. Felterm, $ \ varepsilon $, varierar slumpmässigt ; det vill säga det är en slumpmässig variabel . Parametrarna ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ är dock platshållare för värden som vi inte vet – de varierar inte. , de är okända konstanter . Resultatet av detta faktum för denna diskussion är att oavsett vad $ X $ är (dvs. vilket värde som är inkopplat där), $ \ sigma ^ 2_ \ varepsilon $ förblir densamma. Med andra ord, variansen av felen / restprodukterna är konstant. För kontrastens skull (och kanske större klarhet), överväg den här modellen:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {där} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {där} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {och} \ gamma_1 \ ne 0 $$ I det här fallet kopplar vi in ett värde på $ X $ (börjar på tredje raden), skickar det genom funktionen $ f (X) $ och får felvarians som uppnår vid exakt val ue av $ X $. Sedan går vi igenom resten av ekvationen som vanligt.
Diskussionen ovan bör hjälpa till med förståelse av antagandets natur; frågan ställs också om hur man bedömer det. Det finns i princip två tillvägagångssätt: formella hypotesprov och granskning av tomter. Tester för heteroscedasticitet kan användas om du har experimentell data (d.v.s. som endast förekommer vid fasta värden på $ X $) eller en ANOVA. Jag diskuterar några sådana tester här: Varför Levene testar om lika variationer snarare än F-ratio . Men jag brukar tänka att det är bäst att titta på tomter. @Penquin_Knight har gjort ett bra jobb med att visa hur konstant varians ser ut genom att plotta resterna av en modell där homoscedasticitet uppnås mot de monterade värdena. Heteroscedasticitet kan också möjligen detekteras i en plot av rådata eller i en skala-plats (även kallad spread-level).R plottar bekvämt det senare åt dig med ett samtal till plot.lm(model, which=2)
; det är kvadratroten av de absoluta värdena för resterna mot de monterade värdena, med en lågvärdighet kurva som är hjälpsam överlagrad. Du vill att lågvärdig passform ska vara platt, inte sluttande.
Tänk på ritningarna nedan, som jämför hur homoscedastiska kontra heteroscedastiska data kan se ut i dessa tre olika typer av figurer. Notera trattformen för de två övre heteroscedastiska tomterna och den uppåt sluttande låglinjen i den sista.
För fullständighet är här koden som jag använde för att generera dessa data:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Kommentarer
- tack det är väldigt hjälpsam . Kan du också förklara varför behöver vi detta antagande på lekmannaspråk
- Du ' är välkommen, @Mukul. Antagandet om homoscedasticitet (konstant varians) krävs för att göra OLS-uppskattaren (dvs. standardprocedurprogramvaran använder för att uppskatta betas) till den uppskattningsprocedur som kommer att producera samplingsfördelningar av beta som har de smalaste standardfelen av alla uppskattningsprocedurer som ger samplingsfördelningar som är centrerade på det verkliga värdet. IE, det är nödvändigt att OLS-uppskattaren är den minsta variansen opartiska uppskattaren .
- Om din svarsvariabel är binär kommer den att fördelas som en binomial. IE, många delar av den linjära regressionsmodellen som beskrivs ovan är olämpliga. 1 av dessa frågor är att eftersom variansen för en binomial är en funktion av medelvärdet (medelvärde: $ p $, varians: $ (p (1-p)) / n) $), antas antagandet om homoscedasticitet. För att förstå dessa saker bättre kan det hjälpa att läsa mitt svar här: skillnad-mellan-logit-och-probit-modeller , även om den skrevs i en annan sammanhang.
- @gung i din kommentar lägger du kursiv på alla orden i frasen minsta varians opartisk uppskattning. Jag förstår att med heteroscedasticitet kommer uppskattaren att bli mindre effektiv (mer varians), men kommer den att bli partisk också?
- @ user1205901, den förblir opartisk.
Lämna ett svar