Korrelasjon med en konstant
On februar 9, 2021 by adminJeg prøver å få sammenhengen mellom to variabler, gitt et sett med data. Innimellom, i det gitte datasettet, Når en av variablene har en konstant verdi, siden standardavviket til den variabelen er null, får jeg en NA-verdi for korrelasjonen. (I R). Jeg vil tilordne en verdi for korrelasjonen i disse scenariene eksplisitt eller prøve å få litt verdi på alternative måter, slik at jeg er i stand til å sammenligne dette punktet med andre ganger jeg beregner korrelasjonen. Hvordan kan jeg gjøre det? (1) Skal jeg legge til litt støy i den variabelen og beregne korrelasjonen igjen. Ville det være en meningsfull ting å gjøre?
Kommentarer
- Merk at responskonstant til tross for variabel prediktor og prediktorkonstant mens responsvariabler er vesentlig helt forskjellige situasjoner. Du bør ikke ' vil ikke behandle dem på samme måte, uavhengig av at korrelasjon i begge tilfeller er (ganske rapportert som) ubestemt. (For fullstendighet, legg til begge variablene konstant.
- Kan du utvide det du mener ved å sammenligne det med andre ganger du beregner korrelasjonen?
Svar
Husk at korrelasjon er definert som
$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$
Dette betyr at hvis en av dine «variabler» er konstant, så er den ikke en variabel, den har varians lik null og så er det korrelasjonen med noe udefinert (siden du deler med null).
Standardavvik for variabel $ X $ pluss konstant $ c $ er det samme som standardavvik på $ X $
$$ \ sigma (X + c) = \ sigma (X) $$
det samme for kovarians
$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$
så å legge til støy til din konstante «variabel» vil resultere ved å måle korrelasjonen av støyen din med en annen variabel (din «variabel» er $ c $ og støy er $ X $).
På en annen side er kovariansen av tilfeldig variabel med konstant null o
$$ \ sigma (Y, c) = 0 $$
og konstant tilfeldig variabel er uavhengig av en hvilken som helst annen tilfeldig variabel. Så hvis du virkelig trenger å definere korrelasjon på nytt for et slikt tilfelle, ville det beste valget være $ 0 $. Merk imidlertid at, som bemerket av Nick Cox i kommentaren nedenfor, dette ikke løser noen av problemene dine.
Det grunnleggende problemet med konstant tilfeldig variabel er at den er uavhengig av alt annet, og det vil ikke endre noe på analysen din. På grunn av dette vil mange programvarepakker returnere feil når du bruker konstante variabler, eller slippe dem automatisk fra analysen din. Dette er hva R gjør, og slik oppførsel stemmer overens med definisjonen av korrelasjon.
Kommentarer
- Til tross for logikken her, " korrelasjon udefinert " virker det bedre svaret for alle som står overfor dette spørsmålet. " Vi vet ikke ' vet at " ikke er det samme som null korrelasjon. Videre er ytterligere analyse som behandler korrelasjonen som null mer sannsynlig å ødelegge enhver analyse nedstrøms, f.eks. PCA basert på korrelasjonsmatrisen med fudged nuller.
- Så hvis kovariansen er 0, er telleren 0. Og hvis en variabel er konstant, er nevneren 0. Og 0/0 er en rot. Imidlertid er her denominatior bare en skaleringsfaktor, så kanskje corr = 0 er OK. Men mens du helt sikkert har rett i at kovariansen til en variabel med en konstant er definert som 0, er det ' ikke klart for meg at det er fornuftig heller. vesentlig. Så NA er best, jeg tror
- @ PeterFlom jeg er helt enig med deg.
- Dette er hva R har å si om saken: `cor (x < – rep (1, 10), y < – rnorm (10)) [1] NA Advarsel: I cor (x < – rep (1, 10), y < – rnorm (10)): standardavviket er null`
Svar
Spørsmål om hvordan du gjør ting i R (eller hvilket som helst språk) er utenfor emnet her, men du har også et statistisk spørsmål, dvs.
Hva er en rimelig verdi for korrelasjonen mellom to variabler når en variabel er konstant?
Du foreslår at du legger til litt støy i variabelen. Hvis du skal gjøre det, kan du like godt si at sammenhengen er 0.
Problemet er at du virkelig ikke aner hva korrelasjonen skal være – det kan være hva som helst fra -1 til 1. Derfor gir R NA. Så det er ingen virkelig rimelig ting å gjøre, bortsett fra å si at «vi har ingen informasjon» og ikke sammenligne den med andre verdier.
Legg igjen en kommentar