Mit jelent “ állandó variancia ” egy lineáris regressziós modellben?
On december 23, 2020 by adminMit jelent az, hogy a hiba kifejezésben állandó konstans variancia van? Ahogy látom, van egy függő változóval és egy független változóval rendelkező adat. Az állandó variancia a lineáris regresszió egyik feltételezése. Kíváncsi vagyok, mit jelent a homoscedaszticitás. Mivel akkor is, ha 500 sorom van, egyetlen varianciaértékem lenne, amely nyilvánvalóan állandó. Milyen változóval kell összehasonlítani a varianciát?
Válasz
Ez azt jelenti, hogy amikor az egyedi hibát az előre jelzett értékkel ábrázolja, akkor a hibára jósolt érték varianciáját meg kell adni állandó. Lásd az alábbi képen látható piros nyilakat, a piros vonalak hossza (varianciájának proxyja) megegyezik.
Hozzászólások
- Ok Megértettem. !! De mivel ez egy feltételezés, ne ' t, a modell futtatása előtt ellenőriznünk kell a feltételezést. És miért van szükségünk erre a feltételezésre
- Egyes feltételezéseket csak a modell futtatása után lehet tesztelni. A modell kiszámítása csak matematika, és nem azonos a modell értelmezésével.
- A tartomány nem egyenlő a Penguin Knight varianciájával, ezért érdemes itt frissíteni a megfogalmazását.
- Ha a variancia feltételezése téves, akkor ez általában azt jelenti, hogy a standard hibák tévesek, és bármilyen hipotézisvizsgálat téves következtetéseket vonhat le. (Egy másik János)
- Kissé eltérek. Nem mondanám, hogy ' nem mondanám, hogy a heteroszkedaszticitás szükségszerűen azt jelenti, hogy a bétáinak szokásos hibái hibásak, inkább azt, hogy az OLS becslő már nem a leghatékonyabb elfogulatlan becslő. Vagyis nagyobb teljesítmény / pontosság érhető el, ha vagy állandó varianciája van (esetleg Y átalakulása miatt), vagy ha pontosan figyelembe veszi a nem állandóságot (talán az általánosított legkisebb négyzetek becslőjén keresztül).
Válasz
Ez az a hely, ahol találtam néhány képletet, még matematikai szorongással küzdők számára is (Nem feltétlenül javaslom, hogy tegye). Az egyszerű lineáris regressziós modell ez:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Itt fontos megjegyezni, hogy ez a modell kifejezetten kijelenti, miután megbecsülte az adatokban szereplő értelmes információkat (ezek a “$ \ beta_0 + \ beta_1X $” ) nem marad más hátra, csak fehér zaj. Sőt, a hibák Normál néven oszlanak meg, $ \ sigma ^ 2_ \ varepsilon $ szórással.
Fontos felismerni, hogy a $ \ sigma ^ 2_ \ varepsilon $ nem változó (bár a középiskolai szintű algebrában hívnánk így). Ez nem változik. $ X $ változik. $ Y $ változik. A $ \ varepsilon $ hiba kifejezés véletlenszerűen változik; vagyis véletlen változó . A paraméterek ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ azonban helyőrzői azoknak az értékeknek, amelyeket nem ismerünk – ezek nem változnak. Ehelyett , ezek ismeretlen konstansok . Ennek a beszélgetésnek a ténye az a tény, hogy nem számít, mi az a $ X $ (azaz milyen érték van bekötve oda), A $ \ sigma ^ 2_ \ varepsilon $ változatlan marad. Más szavakkal, a hibák / maradványok szórása állandó. A kontraszt (és talán a nagyobb áttekinthetőség) kedvéért vegye figyelembe ezt a modellt:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {where} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {és} \ gamma_1 \ ne 0 $$ Ebben az esetben becsatlakoztatunk egy $ X $ értéket (a harmadik sortól kezdve), átadjuk a $ f (X) $ függvényen és megkapjuk a hibavariancia, amely t kapja meg pontosan a val ue of $ X $. Ezután a szokásos módon haladunk az egyenlet többi részén.
A fenti beszélgetésnek segítenie kell a feltételezés természetének megértését ; a kérdés arra is rákérdez, hogyan lehet felmérni azt. Alapvetően két megközelítés létezik: formális hipotézis tesztek és a cselekmények vizsgálata. A heteroszkedaszticitás tesztjei akkor használhatók, ha vannak kísérleti adatok (azaz csak $ X $ rögzített értékeknél fordulnak elő) vagy egy ANOVA. Néhány ilyen tesztet tárgyalok itt: Miért inkább a Levene tesztje a varianciák egyenlőségének, mint az F-aránynak . Azonban hajlamos vagyok azt gondolni, hogy a telkeket nézni a legjobb. A @Penquin_Knight jó munkát végzett annak bemutatásáért, hogy néz ki az állandó variancia azáltal, hogy ábrázolja egy olyan modell maradványait, ahol a homoszkedaszticitás eléri az illesztett értékeket. A heteroszkedaszticitás esetleg kimutatható a nyers adatok ábráján, vagy egy skála-hely (más néven elosztott szintű) diagramban.R kényelmesen megrajzolja az utóbbit az Ön számára a plot.lm(model, which=2)
hívással; ez a maradványok abszolút értékeinek négyzetgyöke az illesztett értékekkel szemben, a lowess görbével hasznos átfedésben. Azt akarja, hogy az alacsony fazonú lapos legyen, nem lejtős.
Vizsgáljuk meg az alábbi ábrákat, amelyek összehasonlítják a homoszkedasztikus és a heteroszkedasztikus adatok megjelenését ebben a három különböző típusú ábrában. Vegye figyelembe a tölcsér alakját a felső két heteroszkedasztikus ábrán, és az utolsóban a felfelé hajló alsó vonalat.
A teljesség kedvéért íme a kód, amellyel ezeket az adatokat generáltam:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Megjegyzések
- köszönöm nagyon hasznos . Meg tudná magyarázni, miért van szükségünk erre a feltételezésre egy laikus nyelven?
- Üdvözöljük, @Mukul. ' A homoszkedaszticitás (állandó variancia) feltételezésére van szükség ahhoz, hogy az OLS becslő (vagyis az alapértelmezett eljárásszoftver a béták becsléséhez használja) az a becslési eljárás, amely olyan béták mintavételi eloszlásait eredményezi, amelyek a legszűkebb standard hibával rendelkeznek az összes becslési eljárás közül mintavételi eloszlások, amelyek középpontjában a valós érték áll. IE, szükséges, hogy az OLS becslő legyen a minimális variancia-elfogulatlan becslő .
- Ha a válaszváltozója bináris , akkor az binomiális. IE, a fent leírt lineáris regressziós modell számos része nem megfelelő. E kérdések közül az egyik az, hogy mivel a binomiális varianciája az átlag függvénye (átlag: $ p $, variancia: $ (p (1-p)) / n) $), a homoszkedaszticitás feltételezése sérül. Ezeknek a dolgoknak a jobb megértése segíthet itt elolvasni a válaszomat: különbség-logit-és-probit-modellek között , bár másképp írták kontextus.
- @gung a megjegyzésében dőlt betűvel illeszti a minimális szórás elfogulatlan becslő kifejezés összes szavát. Megértem, hogy heteroszkedaszticitással a becslő kevésbé hatékony lesz (nagyobb a variancia), de elfogult lesz-e is?
- @ user1205901, elfogulatlan marad.
Vélemény, hozzászólás?