Korrelaatio vakion
On helmikuu 9, 2021 by adminYritän saada korrelaation kahden muuttujan välillä, koska tietojoukko on annettu. Kerran silloin tällöin annetussa tietojoukossa, kun yhdellä muuttujista on vakioarvo, koska muuttujan keskihajonta on nolla, saan korrelaatiolle NA-arvon. (R: ssä). Haluaisin osoittaa korrelaation arvon näissä skenaarioissa nimenomaisesti tai yrittää saada jonkin verran arvoa vaihtoehtoisilla keinoilla, jotta voin verrata tätä pistettä muihin aikoihin, kun lasken korrelaation. Kuinka menen siihen? (1) Pitäisikö minun lisätä muuttujaan muuttujaa ja laskea korrelaatio uudelleen. Olisiko mielekäs asia tehdä?
kommentit
- Huomaa, että vastevakio muuttujaennusteesta ja ennustevakiosta huolimatta, kun vastemuuttuja on olennaisesti täysin erilainen tilanne, sinun ei pidä ' et halua kohdella heitä samalla tavalla riippumatta siitä, että korrelaatio kummassakin tapauksessa on (melko raportoitu) määrittelemätön. (Täydellisyyden lisäämiseksi lisää molemmat muuttujat vakiona.
- Voitko laajentaa tarkoittamaasi vertaamalla sitä muihin aikoihin, kun lasket korrelaation?
Vastaa
Muista, että korrelaatio määritellään seuraavasti:
$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$
Tämä tarkoittaa, että jos joku ”muuttujistasi” on vakio, niin se ei ole muuttuja, sen varianssi on yhtä suuri kuin nolla, joten sen korrelaatio mihin tahansa on undefined (koska jaat nollalla).
Muuttujan $ X $ keskihajonta plus vakio $ c $ on sama kuin $ X $: n keskihajonta
$$ \ sigma (X + c) = \ sigma (X) $$
sama kovarianssille
$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$
joten kohinan lisääminen vakiomuuttujaan muuttuisi mittaamaan korrelaation melusta jonkin muun muuttujan kanssa (muuttujasi on $ c $ ja melu on $ X $).
Toisaalta satunnaismuuttujan kovarianssi vakion kanssa on nolla o
$$ \ sigma (Y, c) = 0 $$
ja vakioinen satunnaismuuttuja on riippumaton minkä tahansa muun satunnaismuuttujan. Joten jos sinun on todella määriteltävä korrelaatio uudelleen tällaiselle tapaukselle, paras valinta olisi 0 dollaria. Huomaa kuitenkin, että kuten Nick Cox huomautti alla olevassa kommentissa, tämä ei ratkaise yhtään ongelmaa.
Vakion satunnaismuuttujan perusongelma on, että se on riippumaton kaikki muu ja se ei muuta mitään analyysissäsi. Tämän vuoksi monet ohjelmistopaketit palauttavat virheitä vakiomuuttujia käytettäessä tai pudottavat ne automaattisesti analyysistasi. Tätä R tekee ja tällainen käyttäytyminen on yhdenmukaista korrelaation määritelmän kanssa.
Kommentit
- Tässä esitetystä logiikasta huolimatta " korrelaatio undefined " näyttää olevan parempi vastaus kaikille, jotka kohtaavat tämän kysymyksen. " Emme tiedä, että ' ei tiedä, että " ei ole sama kuin nolla-korrelaatio. Lisäksi lisäanalyysi, joka käsittelee korrelaation nollana, sekoittaa todennäköisemmin minkä tahansa analyysin alavirtaan, esim. PCA perustuu korrelaatiomatriisiin, jossa on fudged nollia.
- Joten jos kovarianssi on 0, niin osoittaja on 0. Ja jos yksi muuttuja on vakio, niin nimittäjä on 0. Ja 0/0 on a sotku. Kuitenkin tässä nimittäjä on vain skaalauskerroin, joten ehkä Corr = 0 on OK. Mutta vaikka olet varmasti oikeassa siinä, että vakiomuuttujan kovarianssi määritellään 0: ksi, ' ei ole minulle selvää, että sillä on myös järkeä. aineellisesti. Joten NA on paras, mielestäni
- @PeterFlom Olen täysin samaa mieltä kanssasi.
- Tämä on mitä R on sanonut asiasta: `cor (x < – rep (1, 10), y < – rnorm (10)) [1] NA-varoitusviesti: Cor (x < – rep (1, 10), y < – rnorm (10)): keskihajonta on nolla”
Vastaus
Kysymykset R: n (tai minkä tahansa kielen) tekemisestä ovat tässä aiheen ulkopuolella, mutta sinulla on myös tilastollinen kysymys, eli / p>
Mikä on kohtuullinen arvo kahden muuttujan korrelaatiolle, kun yksi muuttuja on vakio?
Ehdotat, että muuttujaan lisätään melua. Jos aiot tehdä niin, voit yhtä hyvin sanoa, että korrelaatio on 0.
Ongelmana on, että sinulla ei todellakaan ole aavistustakaan, mitä korrelaation pitäisi olla – se voi olla mikä tahansa välillä -1 – 1. Siksi R antaa NA: n. Joten, ei ole oikeastaan järkevää tehdä muuta kuin sanoa, että ”meillä ei ole tietoa”, eikä vertailla sitä muihin arvoihin.
Vastaa