상수와의 상관 관계

On 2월 9, 2021 by admin

데이터 집합이 주어 졌을 때 두 변수 간의 상관 관계를 구하려고합니다. 가끔 주어진 데이터 세트에서 변수 중 하나가 상수 값을 가질 때 해당 변수의 표준 편차가 0이므로 상관 관계에 대한 NA 값을 얻습니다. (R에서). 이 시나리오에서 상관 관계에 대한 값을 명시 적으로 할당하거나 대체 수단을 통해 값을 얻으려고합니다. 따라서이 점을 다른 시간과 비교할 수 있도록 상관 관계를 계산합니다. 어떻게해야합니까? (1) 해당 변수에 약간의 노이즈를 추가하고 상관 관계를 다시 계산해야합니다. 그게 의미있는 일이 될까요?

주석

변수 예측 변수와 예측 변수 상수에도 불구하고 반응 상수는 있지만 반응 변수는 완전히 다른 상황입니다. ' 어느 경우 든 상관 관계가 불확실하다는 사실에 관계없이 동일한 방식으로 처리하고 싶지 않습니다. (완전성을 위해 두 변수 모두 상수를 추가합니다.
상관 관계를 계산하는 다른 시간과 비교하여 의미를 확장 할 수 있습니까?

답변

상관 관계는 다음과 같이 정의됩니다.

$$ \ rho_ {X, Y} = \ frac {\ sigma (X, Y)} { \ sigma_X \ sigma_Y} $$

즉, “변수”중 하나가 상수이면 변수가 아니라 분산이 0이므로 모든 것과의 상관 관계가 정의되지 않음 (0으로 나누기 때문에)

변수 $ X $ + 상수 $ c $의 표준 편차는 $ X $의 표준 편차와 동일합니다.

$$ \ sigma (X + c) = \ sigma (X) $$

공분산도 동일

$$ \ sigma (X + c, Y) = \ sigma (X, Y) $$

따라서 상수 “변수”에 노이즈를 추가하면 다른 변수와 노이즈 의 상관 관계를 측정 할 수 있습니다 ( “변수”는 $ c $이고 노이즈는 $ X $입니다).

다른 한편으로 상수와 랜덤 변수의 공분산은 zer입니다. o

$$ \ sigma (Y, c) = 0 $$

및 상수 랜덤 변수 독립 다른 임의 변수의. 따라서 이러한 경우에 대한 상관 관계를 다시 정의해야하는 경우 최선의 선택은 $ 0 $입니다. 그러나 아래 주석에서 Nick Cox 가 언급했듯이 이것은 어떤 문제도 해결하지 못합니다.

상수 랜덤 변수의 기본 문제는 그것이 독립적이라는 것입니다. 다른 모든 것은 분석에 대한 어떤 것도 변경하지 않습니다. 이 때문에 많은 소프트웨어 패키지는 상수 변수를 사용할 때 오류를 반환하거나 분석에서 자동으로 삭제합니다. 이것이 R이하는 일이며 이러한 동작은 상관 관계 정의와 일치합니다.

여기 논리에도 불구하고 " 정의되지 않은 상관 관계 "가이 질문에 직면 한 모든 사람에게 더 나은 답인 것 같습니다. " 우리는 ' 알 수 없습니다 "는 상관 관계가 0 인 것과 같지 않습니다. 또한 상관 관계를 0으로 처리하는 추가 분석은 다운 스트림 분석을 엉망으로 만들 가능성이 더 큽니다. 퍼지 된 0이있는 상관 행렬을 기반으로하는 PCA입니다.
공분산이 0이면 분자는 0입니다. 한 변수가 상수이면 분모는 0입니다. 그리고 0/0은 음식물. 그러나 여기서 denominatior는 스케일링 인자 일 뿐이므로 corr = 0이면 괜찮습니다. 그러나 상수가있는 변수의 공분산이 0으로 정의된다는 것은 확실히 옳지 만 ' 그게 말이되는 것도 분명하지 않습니다. 실질적으로. 그래서 NA가 최고라고 생각합니다.
@PeterFlom 나는 당신과 전적으로 동의합니다.
이 문제에 대해 R이 말하는 것입니다.`cor (x <-rep (1, 10), y <-rnorm (10)) [1] 해당 없음 경고 메시지 : In cor (x <-rep (1, 10), y <-rnorm (10)) : 표준 편차가 0입니다`

답변

R (또는 모든 언어)로 작업을 수행하는 방법에 대한 질문은 여기에서 주제를 벗어 났지만 통계적인 질문도 있습니다. / p>

한 변수가 일정 할 때 두 변수 간의 상관 관계에 대한 합리적인 값은 무엇입니까?

변수에 약간의 노이즈를 추가하는 것이 좋습니다. 그렇게하려고한다면 상관 관계가 0이라고 간단히 말할 수 있습니다.

문제는 상관 관계가 무엇이어야하는지 전혀 알지 못한다는 것입니다. 이것이 R이 NA를 제공하는 이유입니다. 따라서 “우리는 정보가 없습니다”라고 말하고 다른 값과 비교하지 않는 것 외에는 정말 합리적인 일이 없습니다.

상수와의 상관 관계

주석

답변

댓글

답변

Written by admin

답글 남기기 답글 취소하기

최신 글

보관함