Central Limit Theorem trenger bare prøvestørrelse, N?
On februar 15, 2021 by adminJeg tror det er to elementer å forklare den sentrale grensesetningen: prøvestørrelsen og antall prøver som er tegnet.
Men ingen ser ut til å snakk om antall prøver som er trukket når de gjør en slutning $ \ mu $ ved hjelp av sentralgrenseteoremet og nevn bare prøvestørrelsen, $ N $ og dens distribusjon, noe som betyr at de bare bruker en eksempegruppe for å utlede populasjonen $ \ mu $ .
Jeg tenkte imidlertid at det burde være mange prøver hver av minst 30 elementer, og følgelig betyr mye prøve «,» og deres fordeling, ikke bare fordelingen av en prøvegruppe.
Vennligst hjelp meg til å forstå Sentralgrenseteoremet korrekt og utlede befolkningens gjennomsnitt, $ \ mu $ .
Kommentarer
- Kan noen forklare hva ' er uklart med spørsmålet?
- @ Glen_b Jeg vet ikke ' t forstår hvordan " antall prøvestørrelser " og " antall tegneeksempler " er forskjellige.
- Du ' tegner flere prøver, hver av størrelse N (" prøvestørrelse "); den andre mengden er hvor mange slike prøver du tegner (" antall prøver "). Jeg antar at det kunne avklares litt med en redigering.
- @Sycorax: Jeg ' har ryddet ordet litt, men i tillegg til at OP ikke har engelsk som førstespråk (og noen store, men ikke uvanlige misforståelser) virket det klart for meg
- @ Roy Jeg ' har bare lagt merke til det ' et beslektet spørsmål her: stats.stackexchange.com/questions/133931/…
Svar
-
En enkelt tilfeldig variabel har en fordeling; et utvalg gjennomsnitt fra et tilfeldig utvalg er en enkelt tilfeldig variabel. Selvfølgelig kan du bare observere fordelingen ved å se på flere tilfeldige prøver (for eksempel flere eksempler); da antallet slike prøver øker vil prøven (empirisk) cdf nærme seg populasjonsfordelingsfunksjonen. Standardfeilen i eksemplet cdf om populasjonen cdf reduseres som kvadratroten av prøvestørrelsen (firedobler størrelsen på prøven, og du halverer standardfeilen).
Kort sagt, antall prøver du tar (hver av størrelsen $ n $ ) har ingen innvirkning på hvor nær distribusjonen av prøven betyr å være normal … bare på hvor nøyaktig du kan se det når du ser på en samling eksempler, betyr alt fra prøver av samme størrelse.
For å se hvor nær du er normaliteten i en eller annen prøvestørrelse. , kan det hende du trenger et betydelig antall eksempler. I simuleringseksperimenter er det vanlig å se på tusenvis av slike prøver for å få en god følelse av distribusjonsformen.
Bildet viser histogrammer på 20, 300 og 100000 prøven betyr for prøver av størrelse n = 30 fra en skjev fordeling . Vi har en viss følelse av den brede formen i den første, en noe klarere følelse av den i den andre, men vi får en ganske klar ide om formen på denne fordelingen av prøven betyr i den tredje, hvor vi har en stor antall realisasjoner av utvalget betyr.
I dette tilfellet betyr prøven ikke å ha nær en normalfordeling; n = 30 ville ikke være tilstrekkelig til å behandle disse midlene som tilnærmet normalt distribuert (i det minste ikke for typiske formål).
Hvis du vil ha en god følelse av hvordan halene i distribusjonen oppfører seg, kan det hende du trenger betydelig større antall eksempler.
Men når du har å gjøre med reelle data, får du vanligvis bare enkeltprøve. Du må basere slutningen din (enten du stoler på CLT eller ikke) på den ene prøven.
-
Du kan ha blitt villedet om hva sentralsetningen sier.
faktisk sentral grense-ordning sier ingenting, uansett om n = 30 eller om noen annen begrenset utvalgstørrelse.
Det er i stedet en setning om oppførselen til standardiserte midler (eller summer) i grensen som n går til uendelig.
-
Selv om det er sant at (under visse forhold) vil eksempler på midler være omtrent normalfordelt (i en spesiell betydning av omtrentlig) hvis utvalgsstørrelse er stor nok, hva som er «stort nok» for et eller annet formål, avhenger av flere faktorer.Som vi ser i plottet ovenfor, kan skjevhet (for eksempel) ha en betydelig innvirkning på tilnærmingen til normalitet (hvis populasjonen er skjev, er fordelingen av prøvemidlene også skjev, men mindre med økende prøvestørrelse).
Kommentarer
- Takk for det flotte svaret! Jeg har et raskt spørsmål om det:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Baserer du på plottet ditt, betyr det at du tegnet 20, 300, 1000000 prøver (og får samme antall eksempler) og at hver prøve av størrelse er 30, og uansett hvor mange prøver du tegnet (eller hvor mange ganger du tegnet prøver ), har det ingen innvirkning på dist. av eksempel betyr å være normalitet? Eller skjønner jeg muligens artikkelen din på en motsatt måte …? - Fordi jeg nettopp simulerte CLT av Python med ensartet dist. med 300 prøver (hver i størrelse er 10), og det ser ganske normalt ut, og så er jeg litt forvirret.
- Distribusjonen på distribusjonen du trekker fra; uniformen er et ' hyggelig ' tilfelle der n enda mindre enn 10 er ganske nær normal for de fleste formål (30 er for høy en bar med mindre du ' kommer godt inn i halen). Hvis du hadde gjort 1000 prøver eller 1 (hver n = 10), er fordelingen av middel den samme, så lenge du holder deg til samme populasjonsfordeling. Hvis du vil etterligne bildene mine, kan du prøve en gammafordeling med form 0,05 (skala- eller hastighetsparameteren betyr ikke ' så lenge du ikke har '
- Merk at prøven din betyr fra uniform er fin og normal, men er (beviselig) egentlig ikke normal; de har lettere haler enn det normale (de har faktisk et endelig rekkevidde). Denne ikke-normaliteten betyr kanskje ikke så mye, avhengig av hva du ' gjør med dem.
- Wow, yeah, gamma dist. viser tydelig hva du forklarte ovenfor: antall eksempler betyr ikke har noen innvirkning. Jeg forstår feilaktig CLT, takk. Og jeg fant også ut at jeg trodde " punktestimering " er basert på CLT, og kunne ikke ' forstår ikke hvorfor poengestimering bare bruker en prøvesamling for å utlede populasjonsparametere. Takk for hjelpen :)
Legg igjen en kommentar