Que signifie le fait davoir “ variance constante ” dans un modèle de régression linéaire?
On décembre 23, 2020 by adminQue signifie avoir « variance constante » dans le terme derreur? Selon moi, nous avons une donnée avec une variable dépendante et une variable indépendante. La variance constante est lune des hypothèses de la régression linéaire. Je me demande ce que signifie lhomoscédasticité. Puisque même si jai 500 lignes, jaurais une seule valeur de variance qui est évidemment constante. Avec quelle variable dois-je comparer la variance?
Réponse
Cela signifie que lorsque vous tracez lerreur individuelle par rapport à la valeur prédite, la variance de la valeur derreur prédite doit être constant. Voir les flèches rouges dans limage ci-dessous, la longueur des lignes rouges (un indicateur de sa variance) est la même.
Commentaires
- Ok compris. !! Mais comme cest une hypothèse don ' t, nous devons valider lhypothèse avant dexécuter le modèle. Et pourquoi avons-nous besoin de cette hypothèse?
- Certaines hypothèses ne peuvent être testées quaprès lexécution du modèle. Le calcul dun modèle nest que mathématique et nest pas la même chose que linterprétation dun modèle.
- La plage ne correspond pas à la variance Penguin Knight, vous voudrez peut-être mettre à jour votre formulation ici.
- Si votre hypothèse de variance est erronée, cela signifie généralement que les erreurs standard sont erronées et que tout test dhypothèse pourrait tirer de mauvaises conclusions. (Un John différent)
- Je diffère légèrement. Je ne dirais pas ' que lhétéroscédasticité signifie nécessairement que les erreurs standard de vos bêtas sont fausses, mais plutôt que lestimateur OLS nest plus lestimateur sans biais le plus efficace. Autrement dit, vous pourriez obtenir plus de puissance / précision si vous aviez une variance constante (peut-être en raison dune transformation de Y), ou si vous preniez en compte avec précision la non-constance (peut-être via lestimateur généralisé des moindres carrés).
Réponse
Cest un endroit où jai trouvé que regarder certaines formules aidait, même pour les personnes souffrant danxiété mathématique (Je ne suggère pas que vous le fassiez, nécessairement). Le simple modèle de régression linéaire est le suivant:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ Ce qui est important à noter ici, cest que ce modèle indique explicitement une fois que vous avez estimé les informations significatives dans les données (cest « $ \ beta_0 + \ beta_1X $ » ) il ne reste plus que du bruit blanc. De plus, les erreurs sont distribuées sous forme de Normal avec une variance de $ \ sigma ^ 2_ \ varepsilon $.
Il est important de se rendre compte que $ \ sigma ^ 2_ \ varepsilon $ nest pas une variable (bien que dans lalgèbre du premier cycle du secondaire, nous lappellerait ainsi). Cela ne varie pas. $ X $ varie. $ Y $ varie. Le terme derreur, $ \ varepsilon $, varie au hasard ; cest-à-dire quil sagit dun variable aléatoire . Cependant, les paramètres ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $ sont des espaces réservés pour les valeurs que nous ne connaissons pas – ils ne varient pas. Au lieu de cela , ce sont des constantes inconnues . Le résultat de ce fait pour cette discussion est que peu importe ce quest $ X $ (cest-à-dire quelle valeur y est branchée), $ \ sigma ^ 2_ \ varepsilon $ reste le même. En dautres termes, la variance des erreurs / résidus est constante. Par souci de contraste (et peut-être plus de clarté), considérons ce modèle:
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {où} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {où} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {et} \ gamma_1 \ ne 0 $$ Dans ce cas, on branche une valeur pour $ X $ (à partir de la troisième ligne), on la passe par la fonction $ f (X) $ et on obtient le variance derreur qui obtient à cette valeur exacte ue de $ X $. Ensuite, nous parcourons le reste de léquation comme dhabitude.
La discussion ci-dessus devrait aider à comprendre la nature de lhypothèse; la question demande également comment évaluer lit. Il existe essentiellement deux approches: les tests dhypothèses formelles et lexamen des parcelles. Les tests dhétéroscédasticité peuvent être utilisés si vous avez des données expérimentales (cest-à-dire qui ne se produisent quà des valeurs fixes de $ X $) ou une ANOVA. Je discute de certains de ces tests ici: Pourquoi le test de Levene dégalité des variances plutôt que le rapport F . Cependant, jai tendance à penser quil est préférable de regarder des parcelles. @Penquin_Knight a fait un bon travail en montrant à quoi ressemble la variance constante en traçant les résidus dun modèle où lhomoscédasticité est obtenue par rapport aux valeurs ajustées. Lhétéroscédasticité peut également être détectée dans un graphique des données brutes, ou dans un graphique à emplacement déchelle (également appelé niveau détalement).R trace commodément ce dernier pour vous avec un appel à plot.lm(model, which=2)
; cest la racine carrée des valeurs absolues des résidus par rapport aux valeurs ajustées, avec une courbe lowess utilement superposée. Vous voulez que la coupe lowess soit plate et non inclinée.
Considérez les graphiques ci-dessous, qui comparent lapparence des données homoscédastiques et hétéroscédastiques dans ces trois types de figures différents. Notez la forme de lentonnoir pour les deux parcelles hétéroscédastiques supérieures et la ligne basse en pente ascendante dans la dernière.
Pour être complet, voici le code que jai utilisé pour générer ces données:
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
Commentaires
- merci cest très utile . Pouvez-vous également expliquer pourquoi nous avons besoin de cette hypothèse dans un langage profane
- Vous ' êtes le bienvenu, @Mukul. Lhypothèse dhomoscédasticité (variance constante) est nécessaire pour faire de lestimateur OLS (c.-à-d. La procédure par défaut utilisée par le logiciel pour estimer les bêtas) la procédure destimation qui produira des distributions déchantillonnage des bêtas qui ont les erreurs-types les plus étroites de toutes les procédures destimation qui produisent distributions déchantillonnage centrées sur la valeur réelle. IE, il est nécessaire que lestimateur OLS soit l estimateur sans biais de variance minimale .
- Si votre variable de réponse est binaire , elle sera distribuée comme un binôme. IE, de nombreuses parties du modèle de régression linéaire décrit ci-dessus sont inappropriées. Lun de ces problèmes est que, puisque la variance dun binôme est une fonction de la moyenne (moyenne: $ p $, variance: $ (p (1-p)) / n) $), lhypothèse dhomoscédasticité est violée. Pour mieux comprendre ces choses, il peut être utile de lire ma réponse ici: difference-between-logit-and-probit-models , bien quelle ait été écrite dans un autre context.
- @gung dans votre commentaire, vous mettez en italique tous les mots de la phrase estimateur sans biais de variance minimale. Je comprends quavec lhétéroscédasticité, lestimateur deviendra moins efficace (plus de variance), mais deviendra-t-il également biaisé?
- @ user1205901, il reste impartial.
Laisser un commentaire