데이터 그룹 간의 분포를 비교하기 위해 t- 검정을 어떻게 사용할 수 있습니까?
On 2월 10, 2021 by admin모집단의 분산이 비교적 유사하고 단위가 독립적이며 두 모집단의 평균 차이를 테스트하는 데 t- 검정이 사용된다는 것을 이해합니다. 이는 정상입니다 (특히 표본 크기가 더 작은 경우).
그러나 두 그룹 간의 데이터 분포 차이를 확인하기 위해 t- 검정이 어떻게 사용되는지 궁금합니다. 기본적으로 내가 대답하려는 질문에 사용 된 표현이기 때문에 나는 이것을 묻는 것입니다. t- 검정을 사용하여 관심 항목의 분포가 다른지 비교하도록 요청합니다.
내가 혼란스러워하는 이유는 평균이 분포의 곱이고 t- 검정이 특이 치의 영향을 많이받을 수 있으므로 t- 검정이 두 분포에 대한 정보를 제공 할 수 있다는 것을 이해하지만, 두 분포가 매우 유사하지만 효과 크기가 다른 평균에 집중되어 있기 때문에 단순히 큰 경우가있을 수 있으며, 두 분포가 차이 분산과 기타 사항으로 인해 펑키 해 보이는 경우가있을 수 있습니다. 동일한 t-stat. 그렇다면 t- 검정에서 무엇을 말할 수 있을까요?
댓글
- 작성할 때 t- 검정은 평균을 비교합니다. 이것이 배포의 한 측면입니다. T- 검정은 분산, 왜도, 첨도 또는 기타 분포 측면을 비교하지 않습니다. 비교하려는 것이 무엇인지 알려주십시오.
- 그것 ' 좋은 질문입니다. 통계적 아이디어에 익숙하지 않은 많은 사람들 " t-test를 사용하여 두 개의 배포 비록 이것이 그들의 평균을 비교하는 극히 제한된 의미에서만 분포 (또는 모집단)를 비교하더라도. 따라서 t- 검정이 평균이 같다는 가설을 기각하면 포티 오리 분포가 다릅니다. 그러나 대부분의 경우 t- 검정은 분포가 매우 다른 경우에도 가설 (아마도 평균이 실제로 동일하기 때문에)을 거부하지 않습니다.
- 분포를 도출하기 위해 만들어진 가정과 함께 Null 아래에있는 테스트 통계의 경우 일반적인 등분 산 t- 테스트는 실제로 분포를 비교하는 것입니다. 분포가 다를 수있는 유일한 방법은 수단이 다르기 때문입니다.
답변
2 표본 t- 검정의 일반적인 설정은 다음과 같습니다.
$$ X_1, \ dots, X_n \ overset {iid} \ sim N (\ mu_x, \ sigma ^ 2) $$
$$ Y_1, \ dots, Y_m \ overset {iid} \ sim N (\ mu_x + \ delta, \ sigma ^ 2) $$
$ $ H_0 : \ delta = 0 $$
$$ H_a : \ delta \ ne0 $$
$$ \ text {(또는 일방적으로 수행합니다.)} $$
이 설정으로 분포가 다르면 평균이 다른 경우에만 발생합니다.
그런 다음 분산이 같지 않다고 말하거나 최소한 그 가능성을 허용 한 다음 평균을 테스트 할 수 있습니다. 어쨌든 차이. 이것은 Welch의 테스트에 도달합니다. 여전히 평균 차이 만 테스트합니다. 분산에 차이가있을 수 있으며 평균의 차이보다 더 흥미로울 수 있지만 Welch의 테스트는 분산의 차이를 포착해서는 안됩니다.
R의 시뮬레이션은이를 확인합니다.
set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times
$ 0.1 $ 수준에서는 약 10 %의 시간을 거부하고 $ 0.05 $ 수준에서 약 5 %의 시간을 거부합니다. 이것은 1000이라는 상당히 큰 표본 크기이므로 미묘한 차이도 발견되어야하지만 그렇지 않습니다. . 따라서 “단지 평균이 아닌 차이를 조사하려는 경우 t- 검정이별로 도움이되지 않는다는 것이 맞습니다.
그러나 다른 사람들도 이것을 알아 차 렸습니다. 일반적으로 분포 차이에 대한 테스트입니다. 고전적인 전체 분포 테스트는 Kolmogorov-Smirnnov (KS) 테스트입니다. 두 개의 (경험적) CDF 사이의 최대 (기술적으로 최고) 수직 거리를 조사합니다. KS 테스트는 뒷부분에서 발견되는 차이를 거부 할 수있는 힘이 부족한 것으로 알려져 있지만 여전히 인기있는 테스트입니다. 일부는 Anderson-Darling 및 Kuiper를 포함합니다. 일부는 시뮬레이션을 가지고 노는 것을 나타냅니다. Kuiper는 꼬리 차이를 감지하는 데있어 세 가지면에서 최고이지만, 이에 대해 특별히 철저히 조사하지는 않았습니다.
탐색하기로 선택한 것은 무엇을 알고 싶은지에 따라 달라집니다. 아마도 그럴 것입니다. 평균이 다르다는 것을 알기에 충분합니다.이 경우 t-testing 또는 Welch-testing이 완전히 괜찮을 수 있습니다!
답변
댓글에서 일부 답변 :
작성할 때 t- 검정은 평균을 비교합니다. 이것이 배포의 한 측면입니다. T- 검정은 분산, 왜도, 첨도 또는 기타 분포 측면을 비교하지 않습니다. 비교하려는 것이 무엇인지 알려주십시오.
– Peter Flom
좋은 질문입니다. 통계적 아이디어에 익숙하지 않은 (또는 그렇게 생각한다고 생각하는) 많은 사람들은 종종 “t-test를 사용하여 두 분포를 테스트 (또는 비교)”하는 문구를 사용합니다. 이것은 분포 (또는 모집단)를 평균 비교의 극히 제한된 의미에서만 비교하지만 t- 검정이 동일한 평균의 가설을 기각하면 분포가 다릅니다. 그러나 대부분의 경우 t- 검정은 기각하지 않습니다. 분포가 매우 다른 경우에도 가설 (평균이 진정으로 동일하기 때문일 수 있음).
– whuber
null 하에서 검정 통계의 분포를 도출하기 위해 만들어진 가정 을 통해 일반적인 등분 산 t- 검정은 실제로 다음과 같은 비교입니다. onl 이후 분포 분포가 다를 수있는 방식은 수단이 다르다는 것입니다.
– Glen_b
답글 남기기