Central Limit Theorem은 표본 크기 만 필요합니다. N?
On 2월 15, 2021 by admin중심 극한 정리를 설명하려면 표본 크기와 추출 된 표본 수라는 두 가지 요소가 필요하다고 생각합니다.
하지만 아무도 그렇게하지 않는 것 같습니다. 중앙 극한 정리를 사용하여 추론을 할 때 추출 된 표본의 수에 대해 이야기하고 $ \ mu $ 에 표본 크기 만 언급합니다. $ N $ 및 분포, 즉 인구를 추론하는 데 하나의 샘플 그룹 만 사용함을 의미합니다. $ \ mu $ .
하지만 적어도 30 개 요소마다 많은 샘플이 있어야한다고 생각했습니다. 따라서 하나의 샘플 그룹의 분포뿐만 아니라 많은 샘플 “평균”과 그 분포가 있어야합니다.
Central Limit Theorem을 올바르게 이해하고 모집단 평균 $ \ mu $ 을 추론하도록 친절하게 도와주세요.
댓글
- 누군가 '가 질문에 대해 명확하지 않은 점을 설명해 줄 수 있나요?
- @Glen_b 내가하지 않습니다 ' " 샘플 크기 수 " 및 그리기 샘플 수 "가 다릅니다.
- 사용자 ' 각각 여러 샘플을 그리고 있습니다. 크기 N (" 샘플 크기 "); 다른 양은 얼마나 많은 샘플을 그리는지입니다 (" 샘플 수 "). 편집하면 좀 더 명확해질 수있을 것 같아요.
- @Sycorax : 저는 ' 문구를 약간 정리했지만 OP 외에는 영어가 없습니다. 모국어로서 (및 일부 주요하지만 드물지 않은 오해는 아님) 분명해 보였습니다.
- @Roy I ' 방금 그곳에서 알아 차 렸습니다. ' 여기에 관련 질문이 있습니다. stats.stackexchange.com/questions/133931/ …
답변
-
단일 랜덤 변수에는 분포가 있습니다. 임의 표본의 표본 평균은 단일 확률 변수입니다. 물론 여러 무작위 표본 (예 : 다중 표본 평균)을보고 분포를 관찰 할 수 있습니다. 그런 다음 이러한 샘플의 수가 증가함에 따라 샘플 (경험적) cdf는 모집단 분포 함수에 접근합니다. 모집단 cdf에 대한 표본 cdf의 표준 오차는 표본 크기의 제곱근에 따라 감소합니다 (표본 크기를 4 배로 늘리고 표준 오차를 절반으로 만듭니다).
요컨대, 수집 한 표본 수 (각 크기 $ n $ )는 표본 평균 분포가 얼마나 가까운 지에 영향을주지 않습니다. 정규화로 … 표본 모음을 볼 때 얼마나 정확하게 볼 수 있는지에 따라서 만 동일한 크기의 표본에서 모두를 의미합니다.
일부 표본 크기에서 정규성에 얼마나 가까운 지 확인하려면 , 상당한 수의 표본 수단이 필요할 수 있습니다. 시뮬레이션 실험에서는 분포 형태를 잘 이해하기 위해 수천 개의 이러한 샘플을 보는 것이 일반적입니다.
그림은 치우친 분포에서 크기 n = 30 인 표본에 대한 표본 평균 20, 300 및 100000의 히스토그램을 보여줍니다. . 우리는 첫 번째 것에서 넓은 모양에 대해 약간의 감각을 가지고 있고 두 번째 것에서 약간 더 명확한 감각을 가지고 있습니다. 그러나 우리는 세 번째 것에서이 표본 평균 분포의 모양에 대해 꽤 명확한 아이디어를 얻습니다. 표본 평균의 실현 횟수.
이 경우 샘플은 “정규 분포에 가깝지 않다는 것을 의미합니다. n = 30은 이러한 평균을 대략 정규 분포로 취급하기에 충분하지 않습니다 (적어도 일반적인 목적에는 해당되지 않음).
분포의 꼬리가 어떻게 작동하는지 잘 알고 싶다면 상당히 많은 수의 표본 평균이 필요할 수 있습니다.
그러나 실제 데이터를 다룰 때는 일반적으로 단일 샘플. CLT에 의존하는지 여부에 관계없이 해당 샘플을 기반으로 추론을해야합니다.
-
중앙 극한 정리가 말하는 것에 대해 오해를 받았을 수 있습니다.
실제 central limit theorem 은 n = 30이나 다른 유한 샘플 크기에 대해 아무것도 말하지 않습니다.
대신에 표준화 된 평균 (또는 합계)의 동작에 대한 정리입니다. n의 한계는 무한대가됩니다.
-
(특정 조건에서) 표본 평균은 (특정한 근사 의미에서) 대략 정규 분포를 따르는 것이 사실입니다. 표본 크기는 충분히 크며 어떤 목적에 대해 “충분히 큰”구성 요소는 여러 요인에 따라 달라집니다.위의 그림에서 볼 수 있듯이 왜도는 정규성에 대한 접근 방식에 상당한 영향을 미칠 수 있습니다 (예 : 모집단이 치우친 경우 표본 평균 분포도 치우 치지 만 표본 크기가 증가함에 따라 덜 그렇습니다).
댓글
- 좋은 답장을 보내 주셔서 감사합니다! 이에 대한 간단한 질문이 있습니다.
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. 플롯을 기반으로 20, 300, 1000000 개의 샘플 (동일한 수의 샘플 평균을 얻음)을 그리고 각 크기의 샘플이 30 개라는 것을 의미합니까, 그리고 얼마나 많은 샘플을 그렸는지 (또는 샘플을 몇 번 그렸는지에 관계없이) ), 그것은 dist에 영향을 미치지 않습니다. 표본의 정상 성은 의미합니까? 아니면 당신의 기사를 반대 방향으로 이해할 수도 있습니다 …? - Python에 의해 단일 dist로 CLT를 시뮬레이션했기 때문입니다. 300 개의 샘플 (각 크기는 10 개)이 있고, 꽤 정상적이어서 약간 혼란 스럽습니다.
- 당신이 추출한 분포의 모양 은 확실히 중요합니다. 유니폼은 ' 좋은 ' 사례로, 10보다 작은 n은 대부분의 목적에서 정상에 매우 가깝습니다 (30은 너무 높음 바를 ' 꼬리에 잘 들어 가지 않는 한). 1000 개의 표본 또는 1 개 (각 n = 10)를 수행 한 경우 동일한 모집단 분포를 고수하는 한 평균 분포는 동일합니다. 내 사진을 에뮬레이션하려면 0.05 모양의 감마 분포를 시도해보세요 (축척 또는 비율 매개 변수는 ' ' t 변경); 동등하게 0.1 d.f로 카이-제곱을 시도 할 수 있습니다.
- 유니폼의 샘플 평균은 멋지고 정상으로 보이지만 실제로는 정상이 아닙니다. 그들은 정상보다 꼬리가 가볍습니다 (실제로 그들은 유한 한 범위를 가지고 있습니다). 이 비정규 성은 당신이 ' 어떻게하는지에 따라 그다지 중요하지 않을 수 있습니다.
- 와, 예, 감마 dist. 위에서 설명한 내용을 명확하게 보여줍니다. 샘플 평균의 수는 영향을 미치지 않습니다. CLT를 잘못 이해했습니다. 감사합니다. 또한 " 점 추정치 "가 CLT를 기반으로하고 있으며 ' 점 추정이 모집단 매개 변수를 추론하기 위해 하나의 샘플 수집 만 사용하는 이유를 이해하지 못합니다. 도와 주셔서 감사합니다 🙂
답글 남기기