Centrální limitní věta potřebuje pouze velikost vzorku, N?
On 15 února, 2021 by adminMyslím, že vysvětlení centrální limitní věty vyžaduje dva prvky: velikost vzorku a počet odebraných vzorků.
Zdá se však, že hovořte o počtu odebraných vzorků, když vytvářejí nějakou infererenci $ \ mu $ pomocí věty o středním limitu a zmíňte pouze velikost vzorku, $ N $ a jeho distribuce, což znamená, že k odvození populace $ \ mu $ používají pouze jednu ukázkovou skupinu.
Myslel jsem si však, že by měla být spousta vzorků, každý z alespoň 30 prvků, a proto spousta vzorků „znamená“ a jejich distribuce, nejen distribuce jedné skupiny vzorků.
Prosím, laskavě mi pomozte správně porozumět centrální limitní větě a odvodit střední hodnotu populace, $ \ mu $ .
Komentáře
- Může někdo vysvětlit, co je ' nejasné ohledně této otázky?
- @Glen_b I don ' nerozumí tomu, jak " počet velikostí vzorku " a " počet vzorků kreslení " se liší.
- ' kreslíte více vzorků, každý velikosti N (" velikost vzorku "); další množství je kolik takových vzorků nakreslíte (" počet vzorků "). Myslím, že by to mohlo být trochu vyjasněno úpravou.
- @Sycorax: I ' jsem trochu vyčistil frázi, ale kromě toho, že OP nemá angličtinu jako první jazyk (a některé hlavní, ale ne neobvyklé mylné představy) mi připadalo jasné
- @Roy I ' právě jsem si tam všiml ' je zde související otázka: stats.stackexchange.com/questions/133931/…
Odpověď
-
Jedna náhodná proměnná má distribuci; průměr vzorku z náhodného vzorku je jedna náhodná proměnná. Samozřejmě můžete pozorovat jeho distribuci pouze při pohledu na několik náhodných vzorků (například více vzorků); poté, co se počet takových vzorků zvyšuje, se vzorek (empirický) cdf přiblíží funkci distribuce populace. Standardní chyba vzorku cdf o populaci cdf klesá s druhou odmocninou velikosti vzorku (čtyřnásobek velikosti vzorku a standardní chyba se sníží na polovinu).
Stručně řečeno, počet vzorků, které odeberete (každý o velikosti $ n $ ), nemá žádný vliv na to, jak blízko je distribuce vzorových prostředků. být normální … pouze to, jak přesně to vidíte, když se podíváte na kolekci vzorků, znamená vše ze vzorků stejné velikosti.
Chcete-li zjistit, jak blízko jste normálnosti při určité velikosti vzorku , možná budete potřebovat značný počet vzorových prostředků. V simulačních experimentech je běžné podívat se na tisíce takových vzorků, abychom získali dobrý přehled o distribučním tvaru.
Obrázek ukazuje histogramy 20, 300 a 100 000 vzorových průměrů pro vzorky o velikosti n = 30 ze zkosené distribuce . V první z nich máme určitý smysl pro široký tvar, ve druhém o něco jasnější, ale ve třetím, kde máme velký, máme docela jasnou představu o tvaru tohoto rozdělení vzorových prostředků počet realizací výběrového průměru.
V tomto případě znamená, že vzorek nemá normální distribuci; n = 30 by nestačilo k tomu, aby tyto prostředky byly považovány za přibližně normálně distribuované (alespoň ne pro typické účely).
Pokud chcete mít dobrý přehled o tom, jak se chovají ocasy distribuce, možná budete potřebovat podstatně větší počet vzorových prostředků.
Když však jednáte se skutečnými daty, obvykle získáte pouze jeden vzorek. Musíte odvodit svůj závěr (ať už se spoléháte na CLT nebo ne) na ten jeden vzorek.
-
Možná jste byli zmateni tím, co říká centrální limitní věta.
Skutečná centrální limitní věta neříká nic o n = 30 ani o žádné jiné konečné velikosti vzorku.
Je to spíše věta o chování standardizovaných prostředků (nebo součtů) v limit jako n jde do nekonečna.
-
I když je pravda, že (za určitých podmínek) budou prostředky vzorku přibližně normálně distribuovány (ve zvláštním smyslu přibližné), pokud velikost vzorku je dostatečně velká, to, co pro určitý účel představuje „dostatečně velkou“, závisí na několika faktorech.Jak vidíme na grafu výše, může mít šikmost (například) podstatný dopad na přístup k normálnosti (pokud je populace zkosená, distribuce průměrů vzorku je také zkosená, ale méně s rostoucí velikostí vzorku).
Komentáře
- Děkujeme za vaši skvělou odpověď! Mám k tomu rychlou otázku:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Na základě vašeho spiknutí to znamená, že jste nakreslili 20, 300, 1000000 vzorků (a získáte stejný počet vzorků) a každý vzorek velikosti je 30 a bez ohledu na to, kolik vzorků jste nakreslili (nebo kolikrát jste nakreslili vzorky ), nemá žádný vliv na dist. vzorek znamená být normálností? Nebo váš článek pochopím opačně …? - Protože jsem právě simuloval CLT pomocí Pythonu s jednotnou dist. s 300 vzorky (každý o velikosti 10) a vypadá to docela normálně, takže jsem trochu zmatený.
- Tvar distribuce , ze kterého čerpáte, rozhodně záleží; uniforma je ' pěkný ' případ, kdy n i menší než 10 je pro většinu účelů docela blízké normálu (30 je příliš vysoká a bar, pokud se ' nedostanete dobře do ocasu). Pokud jste udělali 1 000 vzorků nebo 1 (každý n = 10), rozdělení prostředků je stejné, pokud se budete držet stejného rozdělení populace. Pokud chcete emulovat moje obrázky, zkuste rozdělení gama s tvarem 0,05 (parametr měřítka nebo rychlosti nezáleží ' na tom, pokud ' t změnit); ekvivalentně můžete zkusit chí-kvadrát s 0,1 d.f.
- Všimněte si, že vaše ukázkové prostředky z uniformy jsou hezké a normálně vypadající, ale (prokazatelně) nejsou ve skutečnosti normální; oni jsou lehčí-sledoval než normální (opravdu oni mají konečný rozsah). Na této nenormálnosti nemusí moc záležet, záleží na tom, co s nimi ' děláte.
- Páni, jo, gama dist. jasně ukazuje, co jste vysvětlili výše: počet vzorových prostředků nemá žádný dopad. Špatně rozumím CLT, díky. A také jsem zjistil, že jsem si myslel, že " bodový odhad " je založen na CLT a nemohl ' nechápu, proč bodový odhad používá pouze jednu kolekci vzorků k odvození parametrů populace. Děkujeme za vaši pomoc 🙂
Napsat komentář