상수와의 상관 관계
On 2월 9, 2021 by admin데이터 집합이 주어 졌을 때 두 변수 간의 상관 관계를 구하려고합니다. 가끔 주어진 데이터 세트에서 변수 중 하나가 상수 값을 가질 때 해당 변수의 표준 편차가 0이므로 상관 관계에 대한 NA 값을 얻습니다. (R에서). 이 시나리오에서 상관 관계에 대한 값을 명시 적으로 할당하거나 대체 수단을 통해 값을 얻으려고합니다. 따라서이 점을 다른 시간과 비교할 수 있도록 상관 관계를 계산합니다. 어떻게해야합니까? (1) 해당 변수에 약간의 노이즈를 추가하고 상관 관계를 다시 계산해야합니다. 그게 의미있는 일이 될까요?
주석
- 변수 예측 변수와 예측 변수 상수에도 불구하고 반응 상수는 있지만 반응 변수는 완전히 다른 상황입니다. ' 어느 경우 든 상관 관계가 불확실하다는 사실에 관계없이 동일한 방식으로 처리하고 싶지 않습니다. (완전성을 위해 두 변수 모두 상수를 추가합니다.
- 상관 관계를 계산하는 다른 시간과 비교하여 의미를 확장 할 수 있습니까?
답변
상관 관계는 다음과 같이 정의됩니다.
$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$
즉, “변수”중 하나가 상수이면 변수가 아니라 분산이 0이므로 모든 것과의 상관 관계가 정의되지 않음 (0으로 나누기 때문에)
변수 $ X $ + 상수 $ c $의 표준 편차는 $ X $의 표준 편차와 동일합니다.
$$ \ sigma (X + c) = \ sigma (X) $$
공분산도 동일
$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$
따라서 상수 “변수”에 노이즈를 추가하면 다른 변수와 노이즈 의 상관 관계를 측정 할 수 있습니다 ( “변수”는 $ c $이고 노이즈는 $ X $입니다).
다른 한편으로 상수와 랜덤 변수의 공분산은 zer입니다. o
$$ \ sigma (Y, c) = 0 $$
및 상수 랜덤 변수 독립 다른 임의 변수의. 따라서 이러한 경우에 대한 상관 관계를 다시 정의해야하는 경우 최선의 선택은 $ 0 $입니다. 그러나 아래 주석에서 Nick Cox 가 언급했듯이 이것은 어떤 문제도 해결하지 못합니다.
상수 랜덤 변수의 기본 문제는 그것이 독립적이라는 것입니다. 다른 모든 것은 분석에 대한 어떤 것도 변경하지 않습니다. 이 때문에 많은 소프트웨어 패키지는 상수 변수를 사용할 때 오류를 반환하거나 분석에서 자동으로 삭제합니다. 이것이 R이하는 일이며 이러한 동작은 상관 관계 정의와 일치합니다.
댓글
- 여기 논리에도 불구하고 " 정의되지 않은 상관 관계 "가이 질문에 직면 한 모든 사람에게 더 나은 답인 것 같습니다. " 우리는 ' 알 수 없습니다 "는 상관 관계가 0 인 것과 같지 않습니다. 또한 상관 관계를 0으로 처리하는 추가 분석은 다운 스트림 분석을 엉망으로 만들 가능성이 더 큽니다. 퍼지 된 0이있는 상관 행렬을 기반으로하는 PCA입니다.
- 공분산이 0이면 분자는 0입니다. 한 변수가 상수이면 분모는 0입니다. 그리고 0/0은 음식물. 그러나 여기서 denominatior는 스케일링 인자 일 뿐이므로 corr = 0이면 괜찮습니다. 그러나 상수가있는 변수의 공분산이 0으로 정의된다는 것은 확실히 옳지 만 ' 그게 말이되는 것도 분명하지 않습니다. 실질적으로. 그래서 NA가 최고라고 생각합니다.
- @PeterFlom 나는 당신과 전적으로 동의합니다.
- 이 문제에 대해 R이 말하는 것입니다.`cor (x <-rep (1, 10), y <-rnorm (10)) [1] 해당 없음 경고 메시지 : In cor (x <-rep (1, 10), y <-rnorm (10)) : 표준 편차가 0입니다`
답변
R (또는 모든 언어)로 작업을 수행하는 방법에 대한 질문은 여기에서 주제를 벗어 났지만 통계적인 질문도 있습니다. / p>
한 변수가 일정 할 때 두 변수 간의 상관 관계에 대한 합리적인 값은 무엇입니까?
변수에 약간의 노이즈를 추가하는 것이 좋습니다. 그렇게하려고한다면 상관 관계가 0이라고 간단히 말할 수 있습니다.
문제는 상관 관계가 무엇이어야하는지 전혀 알지 못한다는 것입니다. 이것이 R이 NA를 제공하는 이유입니다. 따라서 “우리는 정보가 없습니다”라고 말하고 다른 값과 비교하지 않는 것 외에는 정말 합리적인 일이 없습니다.
답글 남기기