Central Limit Theorem heeft alleen de steekproefomvang nodig, N?
Geplaatst op februari 15, 2021 door adminIk denk dat het uitleggen van de centrale limietstelling twee elementen nodig heeft: de steekproefomvang en het aantal getrokken steekproeven.
Maar niemand schijnt dat praat over het aantal getrokken steekproeven wanneer ze een afleiding maken $ \ mu $ met behulp van de centrale limietstelling en vermeld alleen de steekproefomvang, $ N $ en zijn distributie, wat betekent dat ze slechts één steekproefgroep gebruiken om de populatie $ \ mu $ af te leiden.
Ik dacht echter dat er veel voorbeelden zouden moeten zijn van elk minstens 30 elementen, en dienovereenkomstig, veel steekproef “middelen”, en hun distributie, niet alleen de verdeling van één steekproefgroep.
Help me alstublieft om de centrale limietstelling correct te begrijpen en het populatiegemiddelde af te leiden, $ \ mu $ .
Opmerkingen
- Kan iemand uitleggen wat ' s onduidelijk is over de vraag?
- @Glen_b Ik don ' ik begrijp niet hoe " aantal steekproefomvang " en " aantal tekeningvoorbeelden " zijn verschillend.
- U ' tekent meerdere voorbeelden, elk van maat N (de " steekproefomvang "); het andere aantal is het aantal van dergelijke monsters dat u trekt (" aantal monsters "). Ik denk dat het een beetje kan worden verduidelijkt met een bewerking.
- @Sycorax: ik ' heb de frasering een beetje opgeruimd, maar behalve dat het OP geen Engels heeft als eerste taal (en enkele belangrijke, maar niet ongebruikelijke misvattingen) leek het me duidelijk
- @Roy I ' ik heb daar net opgemerkt ' is een gerelateerde vraag hier: stats.stackexchange.com/questions/133931/…
Antwoord
-
Een enkele willekeurige variabele heeft een verdeling; een steekproefgemiddelde van een willekeurige steekproef is een enkele willekeurige variabele. Je kunt de verdeling natuurlijk alleen observeren door naar meerdere willekeurige steekproeven te kijken (zoals gemiddelden van meerdere steekproeven); als het aantal van dergelijke steekproeven toeneemt, zal de steekproef (empirische) cdf de populatiedistributiefunctie benaderen. De standaardfout van de steekproef cdf over de populatie cdf neemt af als de vierkantswortel van de steekproefomvang (verviervoudig de steekproefomvang en je halveert de standaardfout).
Kortom, het aantal steekproeven dat u neemt (elk van de grootte $ n $ ) heeft geen invloed op hoe dicht de verdeling van steekproefgemiddelden is om normaal te zijn … alleen op hoe nauwkeurig je het kunt zien als je naar een verzameling steekproeven kijkt, betekent allemaal uit steekproeven van dezelfde grootte.
Om te zien hoe dicht je bij een bepaalde steekproefgrootte bent bij de normaliteit heeft u wellicht een aanzienlijk aantal steekproefmiddelen nodig. Bij simulatie-experimenten is het gebruikelijk om duizenden van dergelijke monsters te bekijken om een goed idee te krijgen van de distributievorm.
De afbeelding toont histogrammen van 20, 300 en 100.000 steekproefgemiddelden voor steekproeven van grootte n = 30 uit een scheve verdeling . We hebben enig idee van de brede vorm in de eerste, een ietwat duidelijkere betekenis ervan in de tweede, maar we krijgen een vrij duidelijk idee van de vorm van deze verdeling van steekproefgemiddelden in de derde, waar we een grote aantal realisaties van het steekproefgemiddelde.
In dit geval betekent steekproefmiddel “niet in de buurt van een normale verdeling; n = 30 zou niet voldoende zijn om deze middelen als ongeveer normaal verdeeld te behandelen (althans niet voor typische doeleinden).
Als u een goed idee wilt hebben van hoe de staarten van de distributie zich gedragen, heeft u mogelijk aanzienlijk grotere aantallen voorbeeldmiddelen nodig.
Als u echter met echte gegevens te maken heeft, krijgt u doorgaans alleen een enkele steekproef. U moet uw gevolgtrekking (of u nu op de CLT vertrouwt of niet) baseren op dat ene monster.
-
Je bent misschien misleid over wat de centrale limietstelling zegt.
De werkelijke centrale limietstelling zegt helemaal niets over n = 30 noch over enige andere eindige steekproefomvang.
Het is in plaats daarvan een stelling over het gedrag van gestandaardiseerde middelen (of sommen) in de limiet als n naar oneindig gaat.
-
Hoewel het waar is dat (onder bepaalde omstandigheden) de steekproefgemiddelden ongeveer normaal verdeeld zullen zijn (in een bepaalde betekenis van benadering) als de de steekproefomvang is groot genoeg, wat voor een bepaald doel “groot genoeg” is, hangt van verschillende factoren af.Zoals we in de bovenstaande grafiek zien, kan scheefheid (bijvoorbeeld) een substantiële impact hebben op de benadering van normaliteit (als de populatie scheef is, is de verdeling van steekproefgemiddelden ook scheef, maar minder naarmate de steekproefomvang toeneemt).
Reacties
- Bedankt voor je geweldige antwoord! Ik heb er een korte vraag over:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Betekent dit op basis van uw plot dat u 20, 300, 1000000 monsters hebt getrokken (en hetzelfde aantal steekproefgemiddelden krijgt) en dat elke steekproef met een grootte van 30 is, en het maakt niet uit hoeveel steekproeven u hebt getrokken (of hoe vaak u ), heeft het geen invloed op de dist. van steekproef betekent normaliteit zijn? Of misschien begrijp ik je artikel op een tegenovergestelde manier …? - Omdat ik zojuist CLT door Python heb gesimuleerd met uniforme dist. met 300 samples (elk met een grootte van 10), en het ziet er vrij normaal uit, en dus ben ik een beetje in de war.
- De vorm van de distributie waar je uit put, doet er beslist toe; het uniform is een ' leuk ' geval waarin n zelfs kleiner dan 10 redelijk normaal is voor de meeste doeleinden (30 is te hoog a bar tenzij je ' ver in de staart zit). Als u 1000 steekproeven of 1 (elk n = 10) had gedaan, is de verdeling van de middelen hetzelfde, zolang u zich maar aan dezelfde populatieverdeling houdt. Als je mijn afbeeldingen wilt emuleren, probeer dan een gammadistributie met vorm 0.05 (de parameter scale of rate doet er niet ' toe zolang je ' t veranderen); equivalent zou je een chikwadraat kunnen proberen met 0,1 d.f.
- Merk op dat je steekproefgemiddelden van een uniform er mooi en normaal uitzien, maar (aantoonbaar) niet echt normaal zijn; ze hebben een lichtere staart dan normaal (ze hebben inderdaad een eindig bereik). Deze niet-normaliteit maakt misschien niet veel uit, afhankelijk van wat je ' ermee doet.
- Wauw, ja, gamma dist. laat duidelijk zien wat je hierboven hebt uitgelegd: het aantal steekproefgemiddelden heeft geen impact. Ik begrijp CLT verkeerd, bedankt. En ik kwam er ook achter dat ik dacht dat " puntschatting " gebaseerd is op CLT, en niet ' begrijp niet waarom puntschatting slechts één steekproefverzameling gebruikt om populatieparameters af te leiden. Bedankt voor je hulp 🙂
Geef een reactie