Correlatie met een constante
Geplaatst op februari 9, 2021 door adminIk probeer de correlatie tussen 2 variabelen te krijgen, gegeven een set gegevens. Af en toe, in de gegeven dataset, wanneer een van de variabelen een constante waarde heeft, aangezien de standaarddeviatie van die variabele nul is, krijg ik een NA-waarde voor de correlatie. (In R). Ik zou expliciet een waarde willen toekennen voor de correlatie in deze scenarios of proberen om een waarde te verkrijgen via alternatieve middelen, zodat ik dit punt kan vergelijken met andere keren dat ik de correlatie bereken. Hoe pak ik dat aan? (1) Moet ik wat ruis aan die variabele toevoegen en de correlatie opnieuw berekenen. Zou dat zinvol zijn om te doen?
Opmerkingen
- Merk op dat responsconstante ondanks variabele voorspeller en voorspellerconstante terwijl responsvariabele wezenlijk totaal verschillende situaties zijn. U moet ' wil ze niet op dezelfde manier behandelen, ongeacht het feit dat de correlatie in beide gevallen (redelijk gerapporteerd als) onbepaald is. (Voeg voor de volledigheid beide variabelen constant toe.
- Kunt u wat u bedoelt uitbreiden door het te vergelijken met andere keren dat u de correlatie berekent?
Antwoord
Bedenk dat correlatie wordt gedefinieerd als
$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$
Dit betekent dat als een van uw “variabelen” constant is, het geen variabele is, het een variantie heeft die gelijk is aan nul en dus de correlatie met alles is ongedefinieerd (aangezien u door nul deelt).
Standaarddeviatie van variabele $ X $ plus constante $ c $ is hetzelfde als standaarddeviatie van $ X $
$$ \ sigma (X + c) = \ sigma (X) $$
hetzelfde voor covariantie
$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$
dus het toevoegen van ruis aan je constante “variabele” zou resulteren in het meten van de correlatie van je ruis met een andere variabele (je “variabele” is $ c $ en ruis is $ X $).
Aan de andere kant is covariantie van willekeurige variabele met constante nul o
$$ \ sigma (Y, c) = 0 $$
en constante willekeurige variabele is onafhankelijk van een andere willekeurige variabele. Dus als u de correlatie voor een dergelijk geval echt opnieuw moet definiëren, dan is de beste keuze $ 0 $. Merk echter op dat, zoals opgemerkt door Nick Cox in de opmerking hieronder, dit uw problemen niet oplost.
Het basisprobleem met een constante willekeurige variabele is dat deze onafhankelijk is van al het andere en het zal niets veranderen aan uw analyse. Daarom zouden veel softwarepakketten fouten retourneren bij het gebruik van constante variabelen of ze automatisch uit uw analyse laten vallen. Dit is wat R doet en dergelijk gedrag is consistent met de definitie van correlatie.
Opmerkingen
- Ondanks de logica hier, " correlatie undefined " lijkt het betere antwoord voor iedereen die met deze vraag wordt geconfronteerd. " We ' weten niet dat " niet hetzelfde is als nulcorrelatie. Bovendien is het waarschijnlijker dat verdere analyse waarbij de correlatie als nul wordt behandeld, elke analyse stroomafwaarts verprutst, b.v. PCA gebaseerd op de correlatiematrix met vervaagde nullen.
- Dus als de covariantie 0 is, dan is de teller 0. En als een variabele constant is, dan is de noemer 0. En 0/0 is een rotzooi. Hier is de noemer echter slechts een schaalfactor, dus misschien is corr = 0 OK. Maar hoewel je zeker gelijk hebt dat de covariantie van een variabele met een constante wordt gedefinieerd als 0, is het ' me niet duidelijk dat dat ook logisch is. inhoudelijk. Dus NA is het beste, denk ik
- @PeterFlom Ik ben het helemaal met je eens.
- Dit is wat R hierover te zeggen heeft: `cor (x < – rep (1, 10), y < – rnorm (10)) [1] n.v.t. Waarschuwingsbericht: In cor (x < – rep (1, 10), y < – rnorm (10)): de standaarddeviatie is nul`
Answer
Vragen over hoe je dingen moet doen in R (of welke taal dan ook) vallen hier buiten het onderwerp, maar je hebt ook een statistische vraag, bijvoorbeeld
Wat is een redelijke waarde voor de correlatie tussen twee variabelen wanneer één variabele constant is?
Je stelt voor om wat ruis aan de variabele toe te voegen. Als je dat gaat doen, dan kun je net zo goed gewoon zeggen dat de correlatie 0 is.
Het probleem is dat je echt geen idee hebt wat de correlatie zou moeten zijn – het kan van alles zijn van -1 tot 1. Daarom geeft R NA. Er is dus niet echt iets om te doen, behalve te zeggen dat “we geen informatie hebben” en deze niet te vergelijken met andere waarden.
Geef een reactie