Korrelation mit einer Konstanten
On Februar 9, 2021 by adminIch versuche, die Korrelation zwischen zwei Variablen anhand eines Datensatzes zu ermitteln. Hin und wieder erhalte ich im gegebenen Datensatz einen NA-Wert für die Korrelation, wenn eine der Variablen einen konstanten Wert hat, da die Standardabweichung dieser Variablen Null ist. (In R). Ich möchte in diesen Szenarien explizit einen Wert für die Korrelation zuweisen oder versuchen, einen Wert auf alternative Weise zu erhalten, damit ich diesen Punkt mit anderen Zeiten vergleichen kann, zu denen ich die Korrelation berechne. Wie gehe ich vor? (1) Sollte ich dieser Variablen etwas Rauschen hinzufügen und die Korrelation erneut berechnen? Wäre das eine sinnvolle Sache?
Kommentare
- Beachten Sie, dass die Antwortkonstante trotz variablem Prädiktor und Prädiktorkonstante, während die Antwortvariable im Wesentlichen völlig unterschiedliche Situationen darstellt, nicht möchte sie nicht gleich behandeln, unabhängig davon, dass die Korrelation in beiden Fällen (ziemlich als) unbestimmt ist. (Fügen Sie der Vollständigkeit halber beide Variablen als Konstante hinzu.
- Können Sie Ihre Bedeutung erweitern, indem Sie sie mit anderen Zeiten vergleichen, zu denen Sie die Korrelation berechnen?
Antwort
Erinnern Sie sich daran, dass die Korrelation definiert ist als
$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$
Dies bedeutet, dass wenn eine Ihrer „Variablen“ konstant ist, es sich nicht um eine Variable handelt, die Varianz gleich Null ist und somit eine Korrelation mit irgendetwas besteht undefiniert (da Sie durch Null teilen).
Die Standardabweichung der Variablen $ X $ plus Konstante $ c $ entspricht der Standardabweichung von $ X $
$$ \ sigma (X + c) = \ sigma (X) $$
das gleiche gilt für die Kovarianz
$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$
Wenn Sie also Ihrer konstanten „Variablen“ Rauschen hinzufügen, wird die Korrelation Ihres Rauschens mit einer anderen Variablen gemessen (Ihre „Variable“ ist) $ c $ und Rauschen ist $ X $).
Andererseits ist die Kovarianz der Zufallsvariablen mit der Konstanten Null o
$$ \ sigma (Y, c) = 0 $$
und konstante Zufallsvariable ist unabhängig einer anderen Zufallsvariablen. Wenn Sie also die Korrelation für einen solchen Fall wirklich neu definieren müssen, ist $ 0 $ die beste Wahl. Beachten Sie jedoch, dass dies, wie von Nick Cox im Kommentar unten erwähnt, keines Ihrer Probleme löst.
Das Grundproblem bei konstanten Zufallsvariablen besteht darin, dass es unabhängig von ist alles andere und es wird nichts an Ihrer Analyse ändern. Aus diesem Grund geben viele Softwarepakete Fehler zurück, wenn sie konstante Variablen verwenden, oder löschen sie automatisch aus Ihrer Analyse. Dies ist, was R tut und ein solches Verhalten stimmt mit der Definition der Korrelation überein.
Kommentare
- Trotz der Logik hier " Korrelation undefiniert " scheint die bessere Antwort für alle zu sein, die sich dieser Frage stellen. " Wir ' wissen nicht, dass " nicht mit Nullkorrelation identisch ist. Darüber hinaus ist es wahrscheinlicher, dass eine weitere Analyse, bei der die Korrelation als Null behandelt wird, eine Analyse stromabwärts durcheinander bringt, z. PCA basierend auf der Korrelationsmatrix mit verfälschten Nullen.
- Wenn also die Kovarianz 0 ist, ist der Zähler 0. Und wenn eine Variable konstant ist, ist der Nenner 0. Und 0/0 ist a Chaos. Hier ist der Nenner jedoch nur ein Skalierungsfaktor, daher ist corr = 0 möglicherweise in Ordnung. Obwohl Sie sicherlich Recht haben, dass die Kovarianz einer Variablen mit einer Konstanten als 0 definiert ist, ist mir ' nicht klar, dass dies auch Sinn macht. im Wesentlichen. Also NA ist am besten, ich denke
- @PeterFlom Ich stimme Ihnen vollkommen zu.
- Dies ist, was R zu diesem Thema zu sagen hat: `cor (x < – rep (1, 10), y < – rnorm (10)) [1] NA Warnmeldung: In cor (x < – rep (1, 10), y < – rnorm (10)): Die Standardabweichung ist Null“
Antwort
Fragen zur Vorgehensweise in R (oder einer beliebigen Sprache) sind hier nicht zum Thema, aber Sie haben auch eine statistische Frage, dh
Was ist ein vernünftiger Wert für die Korrelation zwischen zwei Variablen, wenn eine Variable konstant ist?
Sie schlagen vor, der Variablen etwas Rauschen hinzuzufügen. Wenn Sie das tun, können Sie genauso gut einfach sagen, dass die Korrelation 0 ist.
Das Problem ist, dass Sie wirklich keine Ahnung haben, wie die Korrelation aussehen soll – es könnte alles sein von -1 bis 1. Deshalb gibt R NA. Es gibt also keine wirklich vernünftige Sache zu tun, außer zu sagen, dass „wir keine Informationen haben“ und sie nicht mit anderen Werten zu vergleichen.
Schreibe einen Kommentar