Mitä “ -varianssi ” tarkoittaa lineaarisessa regressiomallissa?
On joulukuu 23, 2020 by adminMitä tarkoittaa ”vakiovarianssi” virhetermissä? Kuten näen, meillä on tietoja, joissa on yksi riippuva muuttuja ja yksi riippumaton muuttuja. Jatkuva varianssi on yksi lineaarisen regression oletuksista. Mietin, mitä homoskedastisuus tarkoittaa. Koska vaikka minulla olisi 500 riviä, minulla olisi yksi varianssiarvo, joka on tietysti vakio. Millä muuttujalla minun pitäisi verrata varianssia?
vastaus
Se tarkoittaa, että kun piirrät yksittäisen virheen ennustettuun arvoon, virheen ennustetun arvon varianssin tulisi olla vakio. Katso punaiset nuolet alla olevasta kuvasta. Punaisen viivan pituus (varianssin välityspalvelin) on sama.
Kommentit
- Ok Ymmärretty. !! Mutta koska se on oletus, älä ' t, oletus on vahvistettava ennen mallin suorittamista. Ja miksi tarvitsemme tätä oletusta
- Jotkut oletukset voidaan testata vasta mallin suorittamisen jälkeen. Mallin laskeminen on vain matematiikkaa eikä sama kuin mallin tulkinta.
- Alue ei ole yhtä suuri kuin Penguin Knightin varianssi, joten kannattaa ehkä päivittää sanamuotosi tähän.
- Jos varianssioletuksesi on väärä, se tarkoittaa yleensä, että standardivirheet ovat väärät ja mikä tahansa hypoteesitestaus voi tehdä vääriä johtopäätöksiä. (Eri John)
- Olen hieman erilainen. En sanoisi, että ' ei sanoisi, että heterosedastisuus tarkoittaa välttämättä sitä, että beetojesi vakiovirheet ovat väärät, vaan pikemminkin, että OLS-estimaattori ei ole enää tehokkain puolueeton estimaattori. Eli voisit saada enemmän tehoa / tarkkuutta, jos joko sinulla olisi jatkuva varianssi (ehkä johtuen Y: n muutoksesta) tai jos otat tarkasti huomioon epävakauden (ehkä yleistetyn pienimmän neliösumman estimaattorin avulla).
Vastaus
Tämä on paikka, josta olen huomannut joidenkin kaavojen hyödyntämisen, myös matematiikan ahdistuneille ihmisille (En ehdota, että tekisit, välttämättä). Yksinkertainen lineaarinen regressiomalli on seuraava:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Tässä on tärkeää huomata, että tämä malli ilmoittaa nimenomaisesti, kun olet arvioinut datassa olevan merkityksellisen tiedon (joka on ”$ \ beta_0 + \ beta_1X $” ) ei ole muuta jäljellä kuin valkoinen kohina. Lisäksi virheet jaetaan Normal -arvona, varianssina $ \ sigma ^ 2_ \ varepsilon $.
On tärkeää ymmärtää, että $ \ sigma ^ 2_ \ varepsilon $ ei ole -muuttuja (vaikka lukioluokan algebrassa me kutsuisin sitä niin). Se ei muutu. $ X $ vaihtelee. $ Y $ vaihtelee. Virhetermi $ \ varepsilon $ vaihtelee satunnaisesti ; eli se on satunnaismuuttuja . Parametrit ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ ovat kuitenkin paikkamerkkejä arvoille, joita emme tiedä – ne eivät muutu. Sen sijaan , ne ovat tuntemattomia vakioita . Tämän keskustelun tosiasia on, että riippumatta siitä, mikä on $ X $ (eli mikä arvo on kytketty sinne), $ \ sigma ^ 2_ \ varepsilon $ pysyy samana. Toisin sanoen virheiden / jäännösten varianssi on vakio. Harkitse kontrastin (ja kenties suuremman selkeyden) vuoksi tätä mallia:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {where} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {ja} \ gamma_1 \ ne 0 $$ Tässä tapauksessa liitämme arvoon $ X $ (alkaen kolmannesta rivistä), välitämme sen funktion $ f (X) $ läpi ja haemme virheiden varianssi, joka saa sillä tarkalla arvolla ue / $ X $. Sitten siirrymme muun yhtälön läpi tavalliseen tapaan.
Yllä olevan keskustelun pitäisi auttaa ymmärtämään oletuksen luonnetta; kysymys kysyy myös siitä, miten sitä arvioida . Lähtökohtia on kaksi: muodolliset hypoteesitestit ja juonien tutkiminen. Heteroskedastisuuden testejä voidaan käyttää, jos sinulla on kokeellisia tietoja (ts. Joita esiintyy vain kiinteillä arvoilla $ X $) tai ANOVA. Käsittelen joitain tällaisia testejä täällä: Miksi Levene-varianssitesti varianssien sijasta F-suhde . Minulla on kuitenkin taipumus ajatella, että tonttien katselu on parasta. @Penquin_Knight on tehnyt hyvää työtä osoittamalla, millainen jatkuva varianssi näyttää, piirtämällä mallin jäännökset, joissa homoskedastiikka saa aikaan sovitetut arvot. Heteroskedastisuus voidaan mahdollisesti havaita myös raakatiedon käyrässä tai mittakaavan sijaintikuvassa (jota kutsutaan myös levitystasoksi).R piirtää jälkimmäisen sinulle sopivasti soittamalla numeroon plot.lm(model, which=2)
; se on jäännösten absoluuttisten arvojen neliöjuuri sovitettuihin arvoihin nähden, ja lowess -käyrä on hyödyllisesti peitetty. Haluat, että matalan istuvuuden on oltava tasainen, ei kalteva.
Harkitse alla olevia kaavioita, joissa verrataan homoscedastisten ja heteroscedastisten tietojen näyttämistä näissä kolmessa erityyppisessä kuvassa. Huomaa suppilon muoto kahdelle ylemmälle heteroscedastiselle juovalle ja viimeinen ylöspäin kalteva matalaviiva.
Täydellisyyden vuoksi tässä on koodi, jota käytin näiden tietojen luomiseen:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
kommentit
- kiitos, että se on erittäin avuliasta . Voitteko myös selittää, miksi tarvitsemme tätä oletusta maallikkokielellä
- Olet ' tervetullut, @Mukul. Homoscedastisuuden (vakiovarianssin) oletus vaaditaan, jotta OLS-estimaattori (eli oletusprosessiohjelmisto käyttää beetojen estimointia) tehdään estimointimenettelyksi, joka tuottaa sellaisten beetojen otosjakaumia, joilla on kapeimmat standardivirheet kaikista tuottavista arviointimenettelyistä näytteenottojakaumat, jotka keskittyvät todelliseen arvoon. Eli, OLS-estimaattorin on oltava pienimmän varianssin puolueeton estimaattori .
- Jos vastemuuttujasi on binaarinen , se jaetaan binomi. IE, monet osat yllä kuvatusesta lineaarisesta regressiomallista ovat sopimattomia. Yksi näistä kysymyksistä on, että koska binomiaalin varianssi on keskiarvon funktio (keskiarvo: $ p $, varianssi: $ (p (1-p)) / n) $), homoskedastisuuden olettamusta rikotaan. Näiden asioiden ymmärtämiseksi paremmin voi olla hyödyllistä lukea vastaukseni täältä: ero logit- ja probit-mallien välillä , vaikka se kirjoitettiin eri tavalla konteksti.
- @gung kirjoitit kommentissasi kursivoitua lauseen vähimmäisvarianssi puolueeton estimaattori kaikkiin sanoihin. Ymmärrän, että heteroskedastisuuden myötä estimaattori muuttuu vähemmän tehokkaaksi (enemmän varianssia), mutta onko se myös puolueellinen?
- @ user1205901, se pysyy puolueettomana.
Vastaa