Wat betekent het hebben van “ constante variantie ” in een lineair regressiemodel?
Geplaatst op december 23, 2020 door adminWat betekent het hebben van “constante variantie” in de foutterm? Zoals ik het zie, hebben we gegevens met één afhankelijke variabele en één onafhankelijke variabele. Constante variantie is een van de aannames van lineaire regressie. Ik vraag me af wat homoscedasticiteit betekent. Zelfs als ik 500 rijen heb, zou ik een enkele variantiewaarde hebben die duidelijk constant is. Met welke variabele moet ik de variantie vergelijken?
Antwoord
Dit betekent dat wanneer u de individuele fout uitzet tegen de voorspelde waarde, de variantie van de door de fout voorspelde waarde moet zijn constante. Zie de rode pijlen in de onderstaande afbeelding, de lengte van de rode lijnen (een proxy van zijn variantie) is hetzelfde.
Reacties
- Ok Begrepen. !! Maar aangezien het een aanname is don ' t, moeten we de aanname valideren voordat het model wordt uitgevoerd. En waarom hebben we deze aanname nodig
- Sommige aannames kunnen alleen worden getest nadat het model is uitgevoerd. Het berekenen van een model is gewoon wiskunde en niet hetzelfde als het interpreteren van een model.
- Bereik is niet gelijk aan variantie Penguin Knight, dus misschien wil je je formulering hier bijwerken.
- Als je variantie-veronderstelling verkeerd is, dan betekent dit meestal dat de standaardfouten verkeerd zijn en dat elke hypothesetest de verkeerde conclusies kan trekken. (Een andere John)
- Ik verschil enigszins. Ik zou niet ' zeggen dat heteroscedasticiteit noodzakelijkerwijs betekent dat de standaardfouten van uw bètas verkeerd zijn, maar dat de OLS-schatter niet langer de meest efficiënte zuivere schatter is. Dat wil zeggen, je zou meer kracht / precisie kunnen krijgen als je ofwel een constante variantie had (misschien als gevolg van een transformatie van Y), of als je nauwkeurig rekening hield met de niet-constantheid (misschien via de gegeneraliseerde kleinste-kwadraten-schatter).
Antwoord
Dit is een plek waar ik heb gevonden dat het zoeken naar bepaalde formules helpt, zelfs voor mensen met wat rekenangst (Ik suggereer niet dat je dat wel doet, noodzakelijkerwijs). Het eenvoudige lineaire regressiemodel is dit:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Wat hier belangrijk is om op te merken, is dat dit model expliciet aangeeft zodra u de betekenisvolle informatie in de gegevens heeft geschat (dat is de $ \ beta_0 + \ beta_1X $ ) blijft er niets over dan witte ruis. Bovendien worden de fouten verdeeld als een Normaal met een variantie van $ \ sigma ^ 2_ \ varepsilon $.
Het is belangrijk om te beseffen dat $ \ sigma ^ 2_ \ varepsilon $ geen variabele is (hoewel we in de algebra van de middelbare school zou het zo noemen). Het varieert niet. $ X $ varieert. $ Y $ varieert. De foutterm $ \ varepsilon $ varieert willekeurig ; dat wil zeggen, het is een willekeurige variabele . De parameters ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ zijn tijdelijke aanduidingen voor waarden die we niet kennen – ze variëren niet. In plaats daarvan , het zijn onbekende constanten . Het resultaat van dit feit voor deze discussie is dat het niet uitmaakt wat $ X $ is (dwz welke waarde erin is ingeplugd), $ \ sigma ^ 2_ \ varepsilon $ blijft hetzelfde. Met andere woorden, de variantie van de fouten / residuen is constant. Beschouw dit model voor het contrast (en misschien voor meer duidelijkheid):
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {where} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {and} \ gamma_1 \ ne 0 $$ In dit geval pluggen we een waarde in voor $ X $ (beginnend op de derde regel), geven deze door de functie $ f (X) $ en halen de foutvariantie die krijgt op die exacte waarde ue van $ X $. Daarna gaan we zoals gewoonlijk door de rest van de vergelijking.
De bovenstaande discussie zou moeten helpen om de aard van de aanname te begrijpen ; de vraag stelt ook de vraag hoe u de it beoordeelt . Er zijn in principe twee benaderingen: formele hypothesetests en het onderzoeken van plots. Tests voor heteroscedasticiteit kunnen worden gebruikt als u experimentele gegevens heeft (d.w.z. die alleen voorkomen bij vaste waarden van $ X $) of een ANOVA. Ik bespreek hier enkele van dergelijke tests: Waarom de Levene-test van gelijkheid van varianties in plaats van F-ratio . Ik ben echter geneigd te denken dat het bekijken van plots het beste is. @Penquin_Knight heeft goed werk verricht door te laten zien hoe constante variantie eruitziet door de residuen uit te zetten van een model waar homoscedasticiteit wordt verkregen tegen de aangepaste waarden. Heteroscedasticiteit kan mogelijk ook gedetecteerd worden in een plot van de ruwe data, of in een scale-location (ook wel spread-level) plot genoemd.R zet het laatste handig voor u uit met een aanroep naar plot.lm(model, which=2)
; het is de vierkantswortel van de absolute waarden van de residuen ten opzichte van de aangepaste waarden, met een lowess -curve handig overlay. Je wilt dat de lowess-pasvorm vlak is, niet schuin.
Beschouw de onderstaande grafieken, die vergelijken hoe homoscedastische versus heteroscedastische gegevens eruit zouden kunnen zien in deze drie verschillende soorten figuren. Let op de trechtervorm voor de bovenste twee heteroscedastische plots en de naar boven hellende lowess-lijn in de laatste.
Voor de volledigheid, hier is de code die ik heb gebruikt om deze gegevens te genereren:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Reacties
- bedankt dat is het erg behulpzaam . Kunt u ook uitleggen waarom we deze aanname nodig hebben in een lekentaal.
- U bent ' welkom, @Mukul. De aanname van homoscedasticiteit (constante variantie) is vereist om de OLS-schatter (dwz de standaardprocedure die software gebruikt om bètas te schatten) de schattingsprocedure te maken die steekproefverdelingen zal produceren van bètas die de kleinste standaardfouten hebben van alle schattingsprocedures die steekproefverdelingen die zijn gecentreerd op de werkelijke waarde. IE, het is noodzakelijk dat de OLS-schatter de zuivere schatter voor minimale variantie is.
- Als uw responsvariabele binair is, wordt deze verdeeld als een binominale. IE, veel delen van het hierboven beschreven lineaire regressiemodel zijn ongepast. Een van die problemen is dat, aangezien de variantie van een binominaal een functie is van het gemiddelde (gemiddelde: $ p $, variantie: $ (p (1-p)) / n) $), de aanname van homoscedasticiteit wordt geschonden. Om deze dingen beter te begrijpen, kan het helpen mijn antwoord hier te lezen: verschil-tussen-logit-en-probit-modellen , hoewel het in een ander context.
- @gung in je commentaar zet je cursief op alle woorden in de uitdrukking minimale variantie zuivere schatter. Ik begrijp dat met heteroscedasticiteit de schatter minder efficiënt zal worden (meer variantie), maar zal hij ook vertekend worden?
- @ user1205901, hij blijft onbevooroordeeld.
Geef een reactie