Korrelation med en konstant
On februar 9, 2021 by adminJeg prøver at få sammenhængen mellem 2 variabler, givet et sæt data. En gang imellem, i det givne datasæt, Når en af variablerne har en konstant værdi, da standardafvigelsen for denne variabel er nul, får jeg en NA-værdi for korrelationen. (I R). Jeg vil gerne tildele en værdi til sammenhængen i disse scenarier eksplicit eller forsøge at få noget værdi på alternative måder, så jeg er i stand til at sammenligne dette punkt med andre gange, hvor jeg beregner sammenhængen. Hvordan gør jeg det? (1) Skal jeg tilføje noget støj til den variabel og beregne korrelationen igen. Ville det være en meningsfuld ting at gøre?
Kommentarer
- Bemærk, at reaktionskonstant på trods af variabel forudsigelse og forudsigerkonstant, mens svarvariabler er i alt væsentligt forskellige situationer. Du bør ikke ' t ønsker at behandle dem på samme måde, uanset at korrelation i begge tilfælde er (ret rapporteret som) ubestemt. (For fuldstændighed, tilføj begge variabler konstant.
- Kan du udvide hvad du mener ved at sammenligne det med andre gange, du beregner korrelationen?
Svar
Husk, at korrelation er defineret som
$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$
Dette betyder, at hvis en af dine “variabler” er konstant, så er den ikke en variabel, den har en varians lig med nul, og så er den sammenhæng med noget udefineret (da du deler med nul).
Standardafvigelse for variabel $ X $ plus konstant $ c $ er den samme som standardafvigelse på $ X $
$$ \ sigma (X + c) = \ sigma (X) $$
det samme for kovarians
$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$
så tilføjelse af støj til din konstante “variabel” ville resultere i måling af korrelation af din støj med en anden variabel (din “variabel” er $ c $ og støj er $ X $).
På den anden side er kovariansen af tilfældig variabel med konstant nul o
$$ \ sigma (Y, c) = 0 $$
og konstant tilfældig variabel er uafhængig af enhver anden tilfældig variabel. Så hvis du virkelig har brug for at omdefinere korrelation i en sådan sag, ville det bedste valg være $ 0 $. Bemærk dog, at som bemærket af Nick Cox i kommentaren nedenfor, dette ikke løser nogen af dine problemer.
Det grundlæggende problem med konstant tilfældig variabel er, at den er uafhængig af alt andet, og det vil ikke ændre noget ved din analyse. På grund af dette ville mange softwarepakker returnere fejl, når der anvendes konstante variabler, eller slippe dem automatisk fra din analyse. Dette er hvad R gør, og sådan adfærd er i overensstemmelse med definitionen af sammenhæng.
Kommentarer
- På trods af logikken her, " korrelation udefineret " synes det bedre svar for alle, der står over for dette spørgsmål. " Vi ved ikke ' at " ikke er det samme som nul korrelation. Yderligere er yderligere analyse, der behandler korrelationen som nul, mere sandsynligt at ødelægge enhver analyse nedstrøms, f.eks. PCA baseret på korrelationsmatrixen med fudged nuller.
- Så hvis kovariansen er 0, er tælleren 0. Og hvis en variabel er konstant, er nævneren 0. Og 0/0 er en rod. Men her er denominatior bare en skaleringsfaktor, så måske er corr = 0 OK. Men mens du helt sikkert har ret i, at kovariansen af en variabel med en konstant er defineret som 0, er det ' ikke klart for mig, at det også giver mening. indholdsmæssigt. Så NA er bedst, jeg tror
- @ PeterFlom Jeg er helt enig med dig.
- Dette er hvad R har at sige om sagen: `cor (x < – rep (1, 10), y < – rnorm (10)) [1] NA Advarselsmeddelelse: I cor (x < – rep (1, 10), y < – rnorm (10)): standardafvigelsen er nul`
Svar
Spørgsmål om, hvordan man gør ting i R (eller ethvert sprog) er uden for emnet her, men du har også et statistisk spørgsmål, dvs. / p>
Hvad er en rimelig værdi for sammenhængen mellem to variabler, når en variabel er konstant?
Du foreslår at tilføje noget støj til variablen. Hvis du vil gøre det, kan du lige så godt sige, at sammenhængen er 0.
Problemet er, at du virkelig ikke har nogen idé om, hvad sammenhængen skal være – det kan være hvad som helst fra -1 til 1. Derfor giver R NA. Så der er ingen rigtig rimelig ting at gøre, undtagen at sige, at “vi har ingen oplysninger” og ikke sammenligne dem med andre værdier.
Skriv et svar