¿Qué significa tener “ varianza constante ” en un modelo de regresión lineal?
On diciembre 23, 2020 by admin¿Qué significa tener «varianza constante» en el término de error? Como yo lo veo, tenemos datos con una variable dependiente y una variable independiente. La varianza constante es uno de los supuestos de la regresión lineal. Me pregunto qué significa homocedasticidad. Ya que incluso si tengo 500 filas, tendría un solo valor de varianza que obviamente es constante. ¿Con qué variable debo comparar la varianza?
Respuesta
Significa que cuando grafica el error individual contra el valor predicho, la varianza del valor predicho del error debe ser constante. Vea las flechas rojas en la imagen a continuación, la longitud de las líneas rojas (un proxy de su variación) es la misma.
Comentarios
- Ok Entendido. !! Pero dado que es una suposición ' t, necesitamos validar la suposición antes de ejecutar el modelo. ¿Y por qué necesitamos esta suposición?
- Algunas suposiciones solo se pueden probar después de ejecutar el modelo. Calcular un modelo es solo matemático y no es lo mismo que interpretar un modelo.
- El rango no es igual a la varianza Penguin Knight, por lo que es posible que desee actualizar su redacción aquí.
- Si su suposición de varianza es incorrecto, entonces generalmente significará que los errores estándar son incorrectos y cualquier prueba de hipótesis podría sacar conclusiones incorrectas. (Un John diferente)
- Yo difiero un poco. No ' diría que la heterocedasticidad necesariamente significa que los errores estándar de sus betas son incorrectos, sino que el estimador MCO ya no es el estimador insesgado más eficiente. Es decir, podría obtener más potencia / precisión si tuviera una varianza constante (quizás debido a una transformación de Y), o si tuviera en cuenta con precisión la no constancia (quizás a través del estimador de mínimos cuadrados generalizado).
Responder
Este es un lugar donde he descubierto que mirar algunas fórmulas ayuda, incluso para personas con cierta ansiedad matemática (No estoy sugiriendo que lo haga, necesariamente). El modelo de regresión lineal simple es este:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Lo que es importante tener en cuenta aquí es que este modelo establece explícitamente una vez que «ha estimado la información significativa en los datos (que es el» $ \ beta_0 + \ beta_1X $ » ) no queda nada más que ruido blanco. Además, los errores se distribuyen como un Normal con una variación de $ \ sigma ^ 2_ \ varepsilon $.
Es importante darse cuenta de que $ \ sigma ^ 2_ \ varepsilon $ no es una variable (aunque en álgebra de nivel de secundaria, lo llamaría así). No varía. $ X $ varía. $ Y $ varía. El término de error, $ \ varepsilon $, varía aleatoriamente ; es decir, es un variable aleatoria . Sin embargo, los parámetros ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ son marcadores de posición para valores que no conocemos, no varían. , son constantes desconocidas . El resultado de este hecho para esta discusión es que no importa lo que sea $ X $ (es decir, qué valor está conectado allí), $ \ sigma ^ 2_ \ varepsilon $ permanece igual. En otras palabras, la varianza de los errores / residuales es constante. Por el bien del contraste (y quizás mayor claridad), considere este modelo:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {donde} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {donde} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {y} \ gamma_1 \ ne 0 $$ En este caso, ingresamos un valor para $ X $ (comenzando en la tercera línea), lo pasamos a través de la función $ f (X) $ y obtenemos el varianza de error que obtiene en ese valor exacto ue de $ X $. Luego, avanzamos por el resto de la ecuación como de costumbre.
La discusión anterior debería ayudar a comprender la naturaleza de la suposición; la pregunta también se refiere a cómo evaluar el. Básicamente, existen dos enfoques: pruebas de hipótesis formales y análisis de parcelas. Las pruebas de heterocedasticidad se pueden usar si tiene datos experimentales (es decir, que solo ocurren en valores fijos de $ X $) o un ANOVA. Analizo algunas de estas pruebas aquí: Por qué la prueba de Levene de igualdad de varianzas en lugar de F-ratio . Sin embargo, tiendo a pensar que lo mejor es mirar las parcelas. @Penquin_Knight ha hecho un buen trabajo al mostrar cómo se ve la varianza constante al trazar los residuos de un modelo donde la homocedasticidad se obtiene contra los valores ajustados. La heterocedasticidad también se puede detectar en un gráfico de los datos brutos o en un gráfico de ubicación a escala (también llamado nivel de dispersión).R traza convenientemente este último para usted con una llamada a plot.lm(model, which=2)
; es la raíz cuadrada de los valores absolutos de los residuos frente a los valores ajustados, con una curva lowess superpuesta de manera útil. Quieres que el ajuste bajo sea plano, no inclinado.
Considere los gráficos a continuación, que comparan cómo se verían los datos homoscedásticos frente a heterocedásticos en estos tres tipos diferentes de figuras. Tenga en cuenta la forma de embudo para las dos parcelas heterocedásticas superiores y la línea inferior con pendiente ascendente en la última.
Para completar, aquí está el código que usé para generar estos datos:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Comentarios
- gracias. muy útil . ¿Puede explicar también por qué necesitamos esta suposición en un lenguaje sencillo?
- Usted ' de nada, @Mukul. Se requiere el supuesto de homocedasticidad (varianza constante) para hacer que el estimador MCO (es decir, el software de procedimiento predeterminado que utiliza para estimar betas) sea el procedimiento de estimación que producirá distribuciones muestrales de betas que tienen los errores estándar más estrechos de todos los procedimientos de estimación que producen distribuciones de muestreo que se centran en el valor real. Es decir, es necesario que el estimador MCO sea el estimador insesgado de varianza mínima .
- Si su variable de respuesta es binaria , se distribuirá como un binomio. Es decir, muchas partes del modelo de regresión lineal descrito anteriormente son inapropiadas. Una de esas cuestiones es que, dado que la varianza de un binomio es una función de la media (media: $ p $, varianza: $ (p (1-p)) / n) $), se viola el supuesto de homocedasticidad. Para comprender mejor estas cosas, puede ser útil leer mi respuesta aquí: difference-between-logit-and-probit-models , aunque se escribió en una forma diferente contexto.
- @gung en su comentario pone en cursiva todas las palabras en la frase estimador insesgado de varianza mínima. Entiendo que con la heterocedasticidad el estimador se volverá menos eficiente (más varianza), pero ¿también estará sesgado?
- @ user1205901, permanece imparcial.
Deja una respuesta