Corrélation avec une constante
On février 9, 2021 by adminJessaie dobtenir la corrélation entre 2 variables, étant donné un ensemble de données. De temps en temps, dans lensemble de données donné, lorsque lune des variables a une valeur constante, puisque lécart type de cette variable est zéro, jobtiens une valeur NA pour la corrélation. (En R). Je voudrais attribuer une valeur pour la corrélation dans ces scénarios explicitement ou essayer dobtenir une valeur par dautres moyens, de sorte que je puisse comparer ce point avec dautres fois où je calcule la corrélation. Comment dois-je procéder? (1) Dois-je ajouter du bruit à cette variable et calculer à nouveau la corrélation. Serait-ce une chose significative à faire?
Commentaires
- Notez que la constante de réponse malgré la variable prédicteur et la constante prédictive tandis que la variable de réponse sont des situations fondamentalement totalement différentes, vous ne devriez pas ' t veulent les traiter de la même manière, indépendamment du fait que la corrélation dans lun ou lautre cas soit (à peu près) indéterminée. (Pour être complet, ajoutez les deux variables constantes.
- Pouvez-vous développer ce que vous voulez dire en le comparant à dautres moments où vous calculez la corrélation?
Réponse
Rappelez-vous que la corrélation est définie comme
$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$
Cela signifie que si lune de vos « variables » est constante, alors ce nest pas une variable, elle a une variance égale à zéro et donc, cest une corrélation avec quoi que ce soit est indéfini (puisque vous divisez par zéro).
Lécart type de la variable $ X $ plus la constante $ c $ est le même que lécart type de $ X $
$$ \ sigma (X + c) = \ sigma (X) $$
idem pour la covariance
$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$
donc ajouter du bruit à votre « variable » constante entraînerait la mesure de la corrélation de votre bruit avec une autre variable (votre « variable » est $ c $ et le bruit est $ X $).
Dun autre côté, la covariance dune variable aléatoire avec une constante est zéro o
$$ \ sigma (Y, c) = 0 $$
et la variable aléatoire constante est indépendante de toute autre variable aléatoire. Donc, si vous avez vraiment besoin de redéfinir la corrélation pour un tel cas, le meilleur choix serait 0 $. Notez cependant que, comme indiqué par Nick Cox dans le commentaire ci-dessous, cela ne résout aucun de vos problèmes.
Le problème de base avec une variable aléatoire constante est quelle est indépendante de tout le reste et cela ne changera rien à votre analyse. Pour cette raison, de nombreux logiciels renverraient des erreurs lors de lutilisation de variables constantes ou les supprimaient automatiquement de votre analyse. Cest ce que fait R et un tel comportement est cohérent avec la définition de la corrélation.
Commentaires
- Malgré la logique ici, " corrélation undefined " semble la meilleure réponse pour quiconque est confronté à cette question. " Nous ne ' ne savons pas que " n’est pas la même chose qu’une corrélation nulle. En outre, une analyse plus poussée traitant la corrélation comme nulle est plus susceptible de gâcher toute analyse en aval, par ex. PCA basée sur la matrice de corrélation avec des zéros fudged.
- Donc, si la covariance est 0, alors le numérateur est 0. Et si une variable est constante, alors le dénominateur est 0. Et 0/0 est un désordre. Cependant, ici, le dénominateur nest quun facteur déchelle, donc peut-être que corr = 0 est OK. Mais, bien que vous ayez certainement raison de dire que la covariance dune variable avec une constante est définie comme 0, il ' nest pas clair pour moi non plus que cela ait du sens. substantiellement. Donc NA est le meilleur, je pense
- @PeterFlom Je suis totalement daccord avec vous.
- Voici ce que R a à dire à ce sujet: `cor (x < – rep (1, 10), y < – rnorm (10)) [1] NA Message davertissement: In cor (x < – rep (1, 10), y < – rnorm (10)): lécart type est zéro`
Réponse
Les questions sur la façon de faire les choses en R (ou dans nimporte quelle langue) sont hors sujet ici, mais vous avez également une question statistique, cest-à-dire
Quelle est une valeur raisonnable pour la corrélation entre deux variables lorsquune variable est constante?
Vous suggérez dajouter du bruit à la variable. Si vous comptez faire cela, vous pourriez tout aussi bien dire que la corrélation est 0.
Le problème est que vous navez vraiment aucune idée de ce que devrait être la corrélation – cela pourrait être nimporte quoi de -1 à 1. Cest pourquoi R donne NA. Donc, il ny a pas de chose vraiment raisonnable à faire sauf de dire que « nous navons aucune information » et de ne pas la comparer à dautres valeurs.
Laisser un commentaire