Che cosa significa avere “ varianza costante ” in un modello di regressione lineare?
Su Dicembre 23, 2020 da adminCosa significa “varianza costante” nel termine di errore? Per come la vedo io, abbiamo un dato con una variabile dipendente e una variabile indipendente. La varianza costante è uno dei presupposti della regressione lineare. Mi chiedo cosa significhi omoschedasticità. Poiché anche se avessi 500 righe, avrei un unico valore di varianza che è ovviamente costante. Con quale variabile devo confrontare la varianza?
Risposta
Significa che quando si traccia il singolo errore rispetto al valore previsto, la varianza del valore previsto dellerrore dovrebbe essere costante. Vedi le frecce rosse nellimmagine sotto, la lunghezza delle linee rosse (un proxy della sua varianza) è la stessa.
Commenti
- Ok capito. !! Ma poiché si tratta di un presupposto non ' t abbiamo bisogno di convalidare il presupposto prima di eseguire il modello. E perché abbiamo bisogno di questa ipotesi
- Alcune ipotesi possono essere verificate solo dopo che il modello è stato eseguito. Calcolare un modello è solo matematica e non è la stessa cosa dellinterpretazione di un modello.
- Lintervallo non è uguale alla varianza Penguin Knight, quindi potresti voler aggiornare la tua formulazione qui.
- Se la tua ipotesi di varianza è sbagliato, quindi di solito significa che gli errori standard sono sbagliati e qualsiasi verifica di ipotesi potrebbe trarre conclusioni sbagliate. (Un John diverso)
- Sono leggermente diverso. Non vorrei ' dire che leteroscedasticità significa necessariamente che gli errori standard dei tuoi beta sono sbagliati, ma piuttosto che lo stimatore OLS non è più lo stimatore imparziale più efficiente. Cioè, potresti ottenere più potenza / precisione se avessi una varianza costante (forse a causa di una trasformazione di Y), o se prendessi accuratamente in considerazione la non costanza (forse tramite lo stimatore dei minimi quadrati generalizzato).
Risposta
Questo è un posto dove “ho scoperto che guardare alcune formule aiuta, anche per le persone con un po di ansia per la matematica (Non sto suggerendo di farlo, necessariamente). Il semplice modello di regressione lineare è questo:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {dove} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Ciò che è importante notare qui è che questo modello afferma esplicitamente una volta che hai stimato le informazioni significative nei dati (che “è” $ \ beta_0 + \ beta_1X $ ” ) non rimane altro che rumore bianco. Inoltre, gli errori vengono distribuiti come Normale con una varianza di $ \ sigma ^ 2_ \ varepsilon $.
È importante rendersi conto che $ \ sigma ^ 2_ \ varepsilon $ non è una variabile (sebbene nellalgebra a livello di scuola media inferiore, noi lo chiamerei così). Non varia. $ X $ varia. $ Y $ varia. Il termine di errore, $ \ varepsilon $, varia in modo casuale ; ovvero, è un variabile casuale . Tuttavia, i parametri ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ sono segnaposto per valori che non conosciamo: non variano. Invece , sono costanti sconosciute . Il risultato di questo fatto per questa discussione è che non importa quale sia $ X $ (ovvero, quale valore è inserito lì), $ \ sigma ^ 2_ \ varepsilon $ rimane lo stesso. In altre parole, la varianza degli errori / residui è costante. Per ragioni di contrasto (e forse maggiore chiarezza), considera questo modello:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {dove} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {dove} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {e} \ gamma_1 \ ne 0 $$ In questo caso, inseriamo un valore per $ X $ (a partire dalla terza riga), lo passiamo attraverso la funzione $ f (X) $ e otteniamo il varianza dellerrore che ottiene a quella esatta val ue di $ X $. Quindi procediamo come al solito attraverso il resto dellequazione.
La discussione di cui sopra dovrebbe aiutare a comprendere la natura del presupposto; la domanda chiede anche come valutare lit. Esistono fondamentalmente due approcci: test di ipotesi formali ed esame di grafici. I test per leteroscedasticità possono essere utilizzati se si dispone di dati sperimentali (cioè che si verificano solo a valori fissi di $ X $) o un ANOVA. Discuto alcuni di questi test qui: Perché il test di Levene delluguaglianza delle varianze piuttosto che del rapporto F . Tuttavia, tendo a pensare che guardare le trame sia la cosa migliore. @Penquin_Knight ha fatto un buon lavoro nel mostrare laspetto della varianza costante tracciando i residui di un modello in cui lomoscedasticità si ottiene rispetto ai valori adattati. Leteroscedasticità può anche essere rilevata in un grafico dei dati grezzi o in un grafico della posizione in scala (chiamato anche a livello di diffusione).R traccia comodamente questultimo per te con una chiamata a plot.lm(model, which=2)
; è la radice quadrata dei valori assoluti dei residui rispetto ai valori stimati, con una curva lowess utilmente sovrapposta. Vuoi che la vestibilità lowess sia piatta, non inclinata.
Considera i grafici seguenti, che confrontano il modo in cui i dati omoschedastici ed eteroschedastici potrebbero apparire in questi tre diversi tipi di figure. Notare la forma a imbuto per i due grafici eteroschedastici superiori e la linea inferiore inclinata verso lalto nellultimo.
Per completezza, ecco il codice che ho usato per generare questi dati:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Commenti
- grazie molto utile . Puoi anche spiegare perché abbiamo bisogno di questa supposizione in un linguaggio laico
- Tu ' sei il benvenuto, @Mukul. Lassunzione di omoscedasticità (varianza costante) è necessaria per fare in modo che lo stimatore OLS (ovvero, la procedura predefinita utilizzata dal software per stimare i beta) sia la procedura di stima che produrrà distribuzioni campionarie dei beta che hanno gli errori standard più stretti di tutte le procedure di stima che producono distribuzioni campionarie centrate sul valore reale. Ad esempio, è necessario che lo stimatore OLS sia lo stimatore imparziale della varianza minima .
- Se la variabile di risposta è binaria , verrà distribuita come un binomio. Cioè, molte parti del modello di regressione lineare descritto sopra non sono appropriate. Uno di questi problemi è che, poiché la varianza di un binomio è una funzione della media (media: $ p $, varianza: $ (p (1-p)) / n) $), lassunzione di omoscedasticità è violata. Per capire meglio queste cose, potrebbe essere utile leggere la mia risposta qui: differenza-tra-logit-e-probit-modelli , sebbene sia stata scritta in un diverso contesto.
- @gung nel tuo commento metti il corsivo su tutte le parole nella frase stima imparziale della varianza minima. Capisco che con leteroscedasticità lo stimatore diventerà meno efficiente (più varianza), ma diventerà anche prevenuto?
- @ user1205901, rimane imparziale.
Lascia un commento