Co znamená mít “ konstantní odchylku ” v modelu lineární regrese?
On 23 prosince, 2020 by adminCo znamená „konstantní rozptyl“ v chybovém výrazu? Jak vidím, máme data s jednou závislou proměnnou a jednou nezávislou proměnnou. Konstantní rozptyl je jedním z předpokladů lineární regrese. Zajímalo by mě, co znamená homoscedasticita. Protože i kdybych měl 500 řádků, měl bych jedinou hodnotu rozptylu, která je zjevně konstantní. S jakou proměnnou mám porovnat rozptyl?
Odpověď
To znamená, že když vykreslíte jednotlivou chybu proti předpokládané hodnotě, měla by být odchylka předpokládané hodnoty chyby konstantní. Podívejte se na červené šipky na obrázku níže, délka červených čar (proxy její odchylky) je stejná.
Komentáře
- Rozumím. !! Jelikož se však jedná o předpoklad don ' t, musíme před spuštěním modelu předpoklad ověřit. A proč potřebujeme tento předpoklad
- Některé předpoklady lze otestovat až po spuštění modelu. Výpočet modelu je jen matematika a není to samé jako interpretace modelu.
- Rozsah se nerovná rozptylu Penguin Knight, takže zde možná budete chtít aktualizovat své znění.
- Pokud je váš předpoklad rozptylu je nesprávné, pak to obvykle bude znamenat, že standardní chyby jsou špatné a jakékoli testování hypotéz by mohlo vést k nesprávným závěrům. (Jiný John)
- Mírně se odlišuji. Nechtěl bych ' říci, že heteroscedasticita nutně znamená, že standardní chyby vašich bet jsou špatné, ale spíše to, že odhad OLS již není nejúčinnějším nezaujatým odhadcem. To znamená, že byste mohli získat více síly / přesnosti, pokud jste buď měli konstantní rozptyl (možná kvůli transformaci Y), nebo pokud jste přesně zohlednili nestálost (možná pomocí zobecněného odhadu nejmenších čtverců).
Odpověď
Na tomto místě jsem našel pomoc při hledání některých vzorců, a to i pro lidi s určitou matematickou úzkostí (Nutně nenaznačuji, že ano). Jednoduchý lineární regresní model je tento:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Důležité je zde poznamenat, že tento model výslovně uvádí, jakmile jste odhadli smysluplné informace v datech (to je „$ \ beta_0 + \ beta_1X $“ ) nezůstane nic jiného než bílý šum. Navíc jsou chyby distribuovány jako normální s odchylkou $ \ sigma ^ 2_ \ varepsilon $.
Je důležité si uvědomit, že $ \ sigma ^ 2_ \ varepsilon $ není proměnná (i když v algebře na úrovni střední školy nazval by to tak). Nemění se. $ X $ se liší. $ Y $ se liší. Chybný výraz, $ \ varepsilon $, se mění náhodně ; to znamená, že se jedná o náhodná proměnná . Parametry ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ jsou zástupné symboly pro hodnoty, které neznáme – neliší se. Místo toho , jsou to neznámé konstanty . Výsledkem této diskuse je, že bez ohledu na to, co je $ X $ (tj. jaká hodnota je tam zapojena), $ \ sigma ^ 2_ \ varepsilon $ zůstává stejný. Jinými slovy, rozptyl chyb / zbytků je konstantní. Z důvodu kontrastu (a možná větší srozumitelnosti) zvažte tento model:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {kde} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {kde} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {and} \ gamma_1 \ ne 0 $$ V tomto případě připojíme hodnotu $ X $ (počínaje třetím řádkem), předáme ji funkcí $ f (X) $ a získáme odchylka chyby, která získá v této přesné hodnotě ue z $ X $. Poté se pohybujeme zbytkem rovnice jako obvykle.
Výše uvedená diskuse by měla pomoci při pochopení podstaty předpokladu; otázka se také ptá, jak to posoudit . V zásadě existují dva přístupy: testy formální hypotézy a zkoumání zápletek. Testy na heteroscedasticitu lze použít, pokud máte experimentální data (tj. Která se vyskytují pouze při pevných hodnotách $ X $) nebo ANOVA. Diskutuji zde o některých takových testech: Proč Levene testuje spíše rovnost odchylek než poměr F . Mám však tendenci si myslet, že pohled na pozemky je nejlepší. @Penquin_Knight odvedl dobrou práci, když ukázal, jak vypadá konstantní rozptyl, vykreslením zbytků modelu, kde se homoscedasticita získá proti přizpůsobeným hodnotám. Heteroscedasticitu lze také detekovat na grafu nezpracovaných dat nebo na grafu škálovaného umístění (nazývaného také na úrovni šíření).R to pro vás pohodlně vykreslí s voláním plot.lm(model, which=2)
; je to druhá odmocnina absolutních hodnot reziduí oproti přizpůsobeným hodnotám, přičemž křivka lowess je užitečně překryta. Chcete, aby nízký střih byl plochý, nikoli šikmý.
Zvažte níže uvedená schémata, která porovnávají, jak by mohla vypadat homoscedastická vs. heteroscedastická data na těchto třech různých typech obrázků. Všimněte si tvaru trychtýře pro horní dva heteroscedastické grafy a vzestupně klesající linii v posledním.
Pro úplnost zde uvádíme kód, který jsem použil ke generování těchto údajů:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Komentáře
- díky je velmi nápomocný . Můžete také vysvětlit, proč potřebujeme tento předpoklad v laickém jazyce.
- Jste ' vítáni, @Mukul. Předpoklad homoscedasticity (konstantní rozptyl) je nutný k tomu, aby odhadce OLS (tj. Software výchozí procedury používá k odhadu betas), postup odhadu, který vytvoří distribuce vzorkování bet, které mají nejužší standardní chyby ze všech postupů odhadu, které vedou distribuce vzorkování, které jsou zaměřeny na skutečnou hodnotu. IE, je nutné, aby odhadcem OLS byl minimální rozptyl nestranný odhad .
- Pokud je vaše proměnná odezvy binární , bude distribuována jako dvojčlen. IE, mnoho částí modelu lineární regrese popsaných výše je nevhodných. Jedním z těchto problémů je, že protože rozptyl binomického čísla je funkcí průměru (průměr: $ p $, rozptyl: $ (p (1-p)) / n) $), je porušen předpoklad homoscedasticity. Abychom těmto věcem lépe porozuměli, může mi pomoci přečíst si moji odpověď zde: difference-between-logit-and-probit-models , i když byla napsána v jiném kontext.
- @gung ve svém komentáři vkládáte kurzíva na všechna slova ve frázi minimální odchylka nestranný odhad. Chápu, že s heteroscedasticitou bude odhad méně efektivní (větší rozptyl), ale bude také zkreslený?
- @ user1205901, zůstane nezaujatý.
Napsat komentář