Central Limit Theorem behöver bara provstorlek, N?
On februari 15, 2021 by adminJag tror att det krävs två element för att förklara den centrala gränssatsen: provstorleken och antalet ritade prover.
Men ingen verkar prata om antalet prover som dras när de gör en slutsats $ \ mu $ med den centrala gränssatsen och nämn bara provstorleken, $ N $ och dess distribution, vilket innebär att de bara använder en provgrupp för att fastställa befolkningen $ \ mu $ .
Jag tänkte emellertid att det borde finnas massor av prover på minst 30 element, och följaktligen betyder massor av prov ”och” deras fördelning, inte bara fördelningen av en provgrupp.
Vänligen hjälp mig att korrekt förstå Central Limit Theorem och sluta befolkningens medelvärde, $ \ mu $ .
Kommentarer
- Kan någon förklara vad ' är oklart om frågan?
- @ Glen_b Jag don ' t förstår hur " antal provstorlek " och " antalet ritprover " är olika.
- Du ' ritar flera prover, vardera av storlek N (" provstorlek "); den andra kvantiteten är hur många sådana prover du ritar (" antal prover "). Jag antar att det kunde klargöras lite med en redigering.
- @Sycorax: Jag ' har rensat formuleringen lite, men förutom att OP inte har engelska som första språk (och några stora men inte ovanliga missuppfattningar) verkade det tydligt för mig
- @Roy Jag ' har precis lagt märke till det ' en relaterad fråga här: stats.stackexchange.com/questions/133931/…
Svar
-
En enda slumpmässig variabel har en fördelning; ett provmedelvärde från ett slumpmässigt urval är en enda slumpmässig variabel. Naturligtvis kan du bara observera dess fördelning genom att titta på flera slumpmässiga prover (såsom flera provmedel); då antalet sådana prover ökar kommer exemplet (empiriskt) cdf att närma sig populationsfördelningsfunktionen. Standardfelet i exemplet cdf om populationen cdf minskar som kvadratroten av provstorlek (fyrdubblar provstorleken och du halverar standardfelet).
Kort sagt, antalet prover du tar (var och en av storlek $ n $ ) har ingen inverkan på hur nära fördelningen av provmedel är att vara normal … bara på hur exakt du kan se det när du tittar på en samling prover betyder allt från prover av samma storlek.
För att se hur nära du är normalitet i någon provstorlek kan du behöva ett stort antal provmedel. I simuleringsexperiment är det vanligt att titta på tusentals sådana prover för att få en god känsla för fördelningsformen.
Bilden visar histogram på 20, 300 och 100000 provmedel för prover av storlek n = 30 från en sned fördelning . Vi har en viss känsla av den breda formen i den första, en något tydligare känsla av den i den andra, men vi får en ganska tydlig uppfattning om formen på denna fördelning av provmedel i den tredje, där vi har en stor antalet realiseringar av provets medelvärde.
I det här fallet betyder provet att det inte är nära en normalfördelning; n = 30 skulle inte vara tillräckligt för att behandla dessa medel som ungefärligt normalfördelade (åtminstone inte för typiska ändamål).
Om du vill ha en god känsla för hur distributionens svansar beter sig kan du behöva betydligt större antal provmedel.
Men när du har att göra med verkliga data får du vanligtvis bara en enda prov. Du måste basera din slutsats (oavsett om du litar på CLT eller inte) på det enda provet.
-
Du kan ha blivit vilseledd om vad den centrala gränssatsen säger.
Den faktiska central gränssats säger ingenting oavsett om n = 30 eller om någon annan begränsad provstorlek.
Det är istället en sats om beteendet hos standardiserade medel (eller summor) i gränsen när n går till oändligheten.
-
Även om det är sant att (under vissa förhållanden) kommer provmedlet att vara ungefär normalt distribuerat (i en viss mening ungefär) om provstorleken är tillräckligt stor, vad som är ”tillräckligt stort” för något ändamål beror på flera faktorer.Som vi ser i diagrammet ovan kan skevhet (till exempel) ha en väsentlig inverkan på inställningen till normalitet (om populationen är sned är fördelningen av provmedel också skev men mindre med ökande provstorlek).
Kommentarer
- Tack för ditt fantastiska svar! Jag har en snabb fråga om det:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Betyder det att du ritade 20, 300, 1000000 prover (och får samma antal provmedel) och att varje prov i storlek är 30, och oavsett hur många prover du ritade (eller hur många gånger du ritade prover ), det har ingen inverkan på dist. av prov betyder att vara normalitet? Eller kanske jag förstår din artikel på motsatt sätt …? - Eftersom jag bara simulerade CLT av Python med enhetlig dist. med 300 prover (var och en av storleken är 10), och det ser ganska normalt ut, och jag är därför lite förvirrad. uniformen är ett ' trevligt ' fall där n ännu mindre än 10 är ganska nära normalt för de flesta ändamål (30 är för högt bar såvida du inte ' kommer in i svansen). Om du hade gjort 1000 prover eller 1 (vardera n = 10) är fördelningen av medel densamma, så länge du håller dig till samma befolkningsfördelning. Om du vill emulera mina bilder, prova en gammafördelning med form 0,05 (skala- eller hastighetsparametern spelar ingen roll ' så länge du inte ' t ändra det); på motsvarande sätt kan du prova en chi-kvadrat med 0,1 d.f.
- Observera att ditt prov betyder från en uniform är snyggt och normalt utseende men är (bevisligen) egentligen inte normalt; de är lättare än det normala (de har faktiskt ett begränsat intervall). Denna icke-normalitet kanske inte spelar någon roll, beroende på vad du ' gör med dem.
- Wow, yeah, gamma dist. visar tydligt vad du förklarade ovan: antalet provmedel har ingen inverkan. Jag förstår felaktigt CLT, tack. Och jag fick också reda på att jag trodde att " punktskattning " är baserat på CLT och kunde inte ' t förstår varför punktuppskattning bara använder en provsamling för att dra slutsatser om befolkningsparam. Tack för din hjälp 🙂
Lämna ett svar