선형 회귀 모델에서 “ 일정 분산 ”이 있다는 것은 무엇을 의미합니까?
On 12월 23, 2020 by admin오류 용어에 “일정 분산”이 있다는 것은 무엇을 의미합니까? 내가보기에 우리는 하나의 종속 변수와 하나의 독립 변수를 가진 데이터를 가지고 있습니다. 상수 분산은 선형 회귀의 가정 중 하나입니다. 나는 동분 산성이 무엇을 의미하는지 궁금합니다. 500 개의 행이 있더라도 분명히 일정한 단일 분산 값이 있기 때문입니다. 분산을 어떤 변수와 비교해야합니까?
답변
예측 값에 대해 개별 오류를 표시 할 때 오류 예측 값의 분산은 다음과 같아야 함을 의미합니다. 일정한. 아래 그림의 빨간색 화살표를 보면 빨간색 선의 길이 (변이의 프록시)가 동일합니다.
댓글
- 알겠습니다. !! 하지만 가정이기 때문에 ' 모델을 실행하기 전에 가정을 검증 할 필요가 없습니다. 그리고이 가정이 필요한 이유
- 일부 가정은 모델이 실행 된 후에 만 테스트 할 수 있습니다. 모델을 계산하는 것은 수학 일 뿐이며 모델을 해석하는 것과는 다릅니다.
- 범위는 분산 펭귄 기사와 같지 않으므로 여기에서 단어를 업데이트하는 것이 좋습니다.
- 분산 가정 인 경우 잘못된 경우 일반적으로 표준 오류가 잘못되었으며 가설 테스트가 잘못된 결론을 도출 할 수 있음을 의미합니다. (다른 존)
- 약간 다릅니다. 저는 ' 이분산성이 반드시 베타의 표준 오류가 잘못되었음을 의미하는 것이 아니라 OLS 추정기가 더 이상 가장 효율적인 편향되지 않은 추정기가 아니라는 것을 의미합니다. 즉, 분산이 일정하거나 (아마도 Y의 변환으로 인해) 불일치를 정확하게 고려한 경우 (일반화 된 최소 제곱 추정기를 통해) 더 많은 검정력 / 정밀도를 얻을 수 있습니다.
답변
수학 불안이있는 사람들에게도 몇 가지 공식을 살펴 보는 것이 도움이되는 곳입니다. (필수적으로 그렇게하라고 제안하는 것은 아닙니다). 간단한 선형 회귀 모델 은 다음과 같습니다.
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, \ sigma ^ 2_ \ varepsilon) $$ 여기서 주목해야 할 점은 데이터에서 의미있는 정보를 “”$ \ beta_0 + \ beta_1X $ “로 추정하면이 모델이 명시 적으로 명시한다는 것입니다. ) 백색 잡음 만 남았습니다. 또한 오류는 $ \ sigma ^ 2_ \ varepsilon $의 분산을 사용하여 일반 으로 배포됩니다.
$ \ sigma ^ 2_ \ varepsilon $이 변수 가 아니라는 사실을 인식하는 것이 중요합니다 (중학교 수준의 대수학에서는 그것을 그렇게 부를 것입니다). 다양하지 않습니다. $ X $는 다양합니다. $ Y $는 다양합니다. 오류 용어 $ \ varepsilon $은 무작위로 다양합니다. 즉, 무작위 변수 . 그러나 매개 변수 ($ \ beta_0, ~ \ beta_1, ~ \ sigma ^ 2_ \ varepsilon) $는 우리가 알지 못하는 값에 대한 자리 표시 자이며 다양하지 않습니다. , 그것들은 알 수없는 상수 입니다.이 논의에서이 사실의 결론은 $ X $가 무엇이든 (즉, 거기에 어떤 값이 연결되어 있든), $ \ sigma ^ 2_ \ varepsilon $은 동일하게 유지됩니다. 즉, 오류 / 잔차의 분산은 일정합니다. 대비 (그리고 아마도 더 명확하게)를 위해 다음 모델을 고려하십시오.
$$ Y = \ beta_0 + \ beta_1X + \ varepsilon \\ \ text {where} \ varepsilon \ sim \ mathcal N (0, f (X)) \\ ~ \\ \ text {where} f (X) = \ exp (\ gamma_0 + \ gamma_1 X ) \\ \ text {and} \ gamma_1 \ ne 0 $$이 경우 $ X $ (세 번째 줄에서 시작)에 대한 값을 연결하고 $ f (X) $ 함수를 통해 전달하고 정확한 값에서 을 얻는 오차 분산 ue of $ X $. 그런 다음 평소와 같이 나머지 방정식을 진행합니다.
위의 논의는 가정의 본질을 이해 하는 데 도움이 될 것입니다. 질문은 또한 그것을 평가 하는 방법에 대해서도 묻습니다. 기본적으로 두 가지 접근 방식이 있습니다. 공식 가설 검정과 플롯 검사입니다. 이분산성 테스트는 실험적 데이터 (즉, $ X $의 고정 값에서만 발생) 또는 ANOVA가있는 경우에 사용할 수 있습니다. 여기에서 이러한 테스트에 대해 설명합니다. Levene가 F- 비가 아닌 분산의 동등성을 테스트하는 이유 . 그러나 나는 플롯을 보는 것이 가장 좋다고 생각하는 경향이 있습니다. @Penquin_Knight는 동분 산성이 적합치에 대해 얻어지는 모델의 잔차를 플로팅하여 상수 분산이 어떤 모습인지 보여주는 훌륭한 작업을 수행했습니다. 이분산성은 원시 데이터 플롯이나 스케일 위치 (확산 수준이라고도 함) 플롯에서도 감지 할 수 있습니다.R은 plot.lm(model, which=2)
를 호출하여 후자를 편리하게 표시합니다. 이는 적합치에 대한 잔차 절대 값의 제곱근이며 lowess 곡선이 유용하게 겹쳐 있습니다. 로우 에스 핏은 경사가 아닌 평평해야합니다.
이 세 가지 다른 유형의 그림에서 동 분산 데이터와이 분산 데이터가 어떻게 보이는지 비교하는 아래 그림을 고려하십시오. 상위 2 개의이 분산 플롯에 대한 깔때기 모양과 마지막에있는 위쪽으로 경 사진 낮은 선에 주목하십시오.
완전성을 위해 이러한 데이터를 생성하는 데 사용한 코드는 다음과 같습니다.
set.seed(5) N = 500 b0 = 3 b1 = 0.4 s2 = 5 g1 = 1.5 g2 = 0.015 x = runif(N, min=0, max=100) y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 )) y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x))) mod.homo = lm(y_homo~x) mod.hetero = lm(y_hetero~x)
댓글
- 감사합니다. 매우 도움이됩니다. 평신도 언어로이 가정이 필요한 이유를 설명해 주시겠습니까?
- ' 환영합니다, @Mukul. OLS 추정기 (즉, 기본 절차 소프트웨어가 베타를 추정하는 데 사용하는 기본 절차 소프트웨어)를 산출하는 모든 추정 절차 중 가장 좁은 표준 오차를 갖는 베타의 샘플링 분포를 생성하는 추정 절차를 만들려면 동분 산성 (상수 분산) 가정이 필요합니다. 실제 값을 중심으로 한 샘플링 분포. IE에서는 OLS 추정기가 최소 분산 비 편향 추정기 여야합니다.
- 응답 변수가 이진 이면 다음과 같이 배포됩니다. 이항. IE, 위에서 설명한 선형 회귀 모델의 많은 부분이 부적절합니다. 이러한 문제 중 하나는 이항의 분산이 평균 (평균 : $ p $, 분산 : $ (p (1-p)) / n) $의 함수이므로 동분 산성 가정이 위반된다는 것입니다. 이러한 내용을 더 잘 이해하려면 difference-between-logit-and-probit-models 에서 제 답변을 읽는 것이 도움이 될 수 있습니다. 문맥.
- @gung 귀하의 의견에 최소 분산 비 편향 추정기 문구의 모든 단어에 이탤릭체를 넣었습니다. 이분산성을 사용하면 추정기가 덜 효율적이되지만 (더 많은 분산) 편향 될 것임을 이해합니다.
- @ user1205901, 편향되지 않은 상태로 유지됩니다.
답글 남기기