Ce înseamnă să ai “ varianță constantă ” într-un model de regresie liniară?
On decembrie 23, 2020 by adminCe înseamnă a avea „varianță constantă” în termenul de eroare? După cum văd, avem date cu o variabilă dependentă și o variabilă independentă. Varianța constantă este una dintre ipotezele de regresie liniară. Mă întreb ce înseamnă homoscedasticitate. Deoarece, chiar dacă aș avea 500 de rânduri, aș avea o singură valoare a varianței, care este evident constantă. Cu ce variabilă ar trebui să compar varianța?
Răspuns
Înseamnă că atunci când trasați eroarea individuală în raport cu valoarea prezisă, varianța valorii prezise de eroare ar trebui să fie constant. Vedeți săgețile roșii din imaginea de mai jos, lungimea liniilor roșii (un proxy al varianței sale) sunt aceleași.
Comentarii
- Ok Înțeles. !! Dar întrucât este o presupunere, nu ' t trebuie să validăm ipoteza înainte de a rula modelul. Și de ce avem nevoie de această ipoteză
- Unele ipoteze pot fi testate numai după ce modelul este rulat. Calculul unui model este doar matematică și nu este același lucru cu interpretarea unui model.
- Gama nu este egală cu varianța Penguin Knight, așa că s-ar putea să doriți să vă actualizați formularea aici.
- Dacă presupunerea varianței dvs. este greșit, atunci de obicei va însemna că erorile standard sunt greșite și orice testare a ipotezelor ar putea trage concluzii greșite. (Un Ioan diferit)
- Eu diferă ușor. Nu aș spune ' că nu spun că heteroscedasticitatea înseamnă neapărat că erorile standard ale beta-urilor dvs. sunt greșite, ci mai degrabă că estimatorul OLS nu mai este cel mai eficient estimator imparțial. Adică, ați putea obține mai multă putere / precizie dacă ați avut o varianță constantă (poate din cauza unei transformări a lui Y) sau dacă ați luat în considerare neconstanța (probabil prin intermediul estimatorului generalizat al celor mai mici pătrate).
Răspuns
Acesta este un loc în care am găsit că te uită la câteva formule, chiar și pentru persoanele cu o anumită anxietate matematică (Nu vă sugerez, în mod necesar). Simplul model de regresie liniar este următorul:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Ce este important de remarcat aici este că acest model afirmă în mod explicit odată ce ați „estimat informațiile semnificative din date (care sunt„ $ \ beta_0 + \ beta_1X $ ” ) nu a mai rămas decât zgomot alb. Mai mult, erorile sunt distribuite ca Normal cu o varianță de $ \ sigma ^ 2_ \ varepsilon $.
Este important să ne dăm seama că $ \ sigma ^ 2_ \ varepsilon $ nu este o variabilă (deși în algebra la nivel de liceu, noi ar numi-o astfel). Nu variază. $ X $ variază. $ Y $ variază. Termenul de eroare, $ \ varepsilon $, variază aleatoriu ; adică este un variabilă aleatorie . Cu toate acestea, parametrii ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ sunt substituenți pentru valori pe care nu le știm – nu variază. În schimb , acestea sunt constante necunoscute . Rezultatul acestui fapt pentru această discuție este că, indiferent de $ X $ (adică, ce valoare este conectată acolo), $ \ sigma ^ 2_ \ varepsilon $ rămâne același. Cu alte cuvinte, varianța erorilor / reziduurilor este constantă. Din motive de contrast (și poate de claritate mai mare), luați în considerare acest model:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {where} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {și} \ gamma_1 \ ne 0 $$ În acest caz, conectăm o valoare pentru $ X $ (începând cu a treia linie), o trecem prin funcția $ f (X) $ și obținem varianță de eroare care se obține la acel val exact ue de $ X $. Apoi ne deplasăm prin restul ecuației ca de obicei.
Discuția de mai sus ar trebui să ajute la înțelegerea natura presupunerii; întrebarea pune, de asemenea, despre cum să evaluați acesta. În principiu, există două abordări: teste formale de ipoteză și examinarea comploturilor. Testele pentru heteroscedasticitate pot fi utilizate dacă aveți date experimentale (adică, care apar doar la valori fixe de $ X $) sau un ANOVA. Discut aici câteva astfel de teste: De ce testul Levene al egalității variațiilor, mai degrabă decât al raportului F . Cu toate acestea, tind să cred că este mai bine să te uiți la parcele. @Penquin_Knight a făcut o treabă bună de a arăta cum arată varianța constantă, trasând reziduurile unui model în care homoscedasticitatea se obține în raport cu valorile potrivite. Heteroscedasticitatea poate fi, de asemenea, detectată într-un grafic al datelor brute sau într-un grafic de localizare a scării (numit și nivel de răspândire).R îl complotează convenabil pe acesta din urmă cu un apel către plot.lm(model, which=2)
; este rădăcina pătrată a valorilor absolute ale reziduurilor în raport cu valorile potrivite, cu o curbă lowess suprapusă util. Vrei ca ajustarea lowess să fie plată, nu înclinată.
Luați în considerare graficele de mai jos, care compară modul în care ar putea arăta datele homoscedastice vs. heteroscedastice în aceste trei tipuri diferite de figuri. Rețineți forma pâlniei pentru cele două parcele superioare heteroscedastice și linia lowess înclinată în sus în ultima.
Pentru completare, iată codul pe care l-am folosit pentru a genera aceste date:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Comentarii
- mulțumesc că este foarte folositor . Puteți explica, de asemenea, de ce avem nevoie de această presupunere într-o limbă profană
- Sunteți binevenit ', @Mukul. Presupunerea homoscedasticității (varianță constantă) este necesară pentru a face estimatorul OLS (adică, procedura implicită utilizată de software pentru a estima beta) procedura de estimare care va produce distribuții de eșantionare ale beta-urilor care au cele mai înguste erori standard dintre toate procedurile de estimare care produc eșantionarea distribuțiilor care sunt centrate pe valoarea reală. IE, este necesar ca estimatorul OLS să fie estimatorul imparțial al varianței minime .
- Dacă variabila de răspuns este binară , va fi distribuită ca un binom. IE, multe părți ale modelului de regresie liniară descris mai sus sunt inadecvate. 1 dintre aceste aspecte este că, deoarece varianța unui binom este o funcție a mediei (medie: $ p $, varianță: $ (p (1-p)) / n) $), presupunerea omoscedasticității este încălcată. Pentru a înțelege mai bine aceste lucruri, vă poate ajuta să citiți răspunsul meu aici: difference-between-logit-and-probit-models , deși a fost scris într-un alt mod context.
- @gung în comentariul dvs. puneți cursiv pe toate cuvintele din expresia varianță minimă estimator imparțial. Înțeleg că, odată cu heteroscedasticitatea, estimatorul va deveni mai puțin eficient (mai multă varianță), dar va deveni și părtinitor?
- @ user1205901, rămâne imparțial.
Lasă un răspuns