A Central Limit tételnek csak a minta mérete kell, N?
On február 15, 2021 by adminÚgy gondolom, hogy a központi határtétel magyarázatához két elemre van szükség: a minta méretére és a levett minták számára.
Úgy tűnik azonban, hogy senki sem beszéljen a minták számáról, amikor következtetést hajtanak végre $ \ mu $ a központi határtétel használatával, és csak a minta méretét említi, $ N $ és annak terjesztése, ami azt jelenti, hogy csak egy mintacsoportot használnak a populáció $ \ mu $ következtetésére.
Úgy gondoltam, hogy legalább 30 elemből kell lennie sok mintának, ennek megfelelően a sok minta „azt jelenti”, és azok eloszlása, nem csak egy mintacsoport eloszlása.
Kérjük, segítsen nekem, hogy helyesen megértsem a Központi Határ Tételt, és következtessem a populáció átlagát, $ \ mu $ .
Megjegyzések
- Meg tudná valaki magyarázni, mi ' nem világos a kérdésben?
- @Glen_b Nem ' nem érti, hogy " a minta mérete " és " rajzminták száma " eltér.
- Ön ' több mintát rajzol, mindegyiket N méretű (a " minta mérete "); a másik mennyiség az, hogy hány ilyen mintát veszel (" minták száma "). Azt hiszem, egy szerkesztéssel kicsit tisztázható lenne.
- @Sycorax: Én ' kicsit megtisztítottam a megfogalmazásokat, de az OP mellett amellett, hogy nem volt angol első nyelvként (és néhány fontosabb, de nem ritka tévhit) egyértelműnek tűnt számomra
- @Roy I ' csak észrevettem ott ' sa kapcsolódó kérdés itt: stats.stackexchange.com/questions/133931/…
Válasz
-
Egyetlen véletlen változónak van eloszlása; egy véletlen mintából vett mintaátlag egyetlen véletlen változó. Természetesen az eloszlását csak több véletlenszerű minta (például több minta átlag) megnézésével lehet megfigyelni; akkor az ilyen minták számának növekedésével a minta (empirikus) a cdf megközelíti a populációeloszlás függvényét. A cdf minta populációs cdf standard hibája a minta méretének négyzetgyökével csökken (négyszeresére növeli a minta méretét, és felére csökkenti a standard hibát).
Röviden, a vett minták száma (mindegyik méret $ n $ ) nincs hatással arra, hogy milyen közel van a minta átlagának eloszlása normálisnak lenni … csak az, hogy mennyire pontosan láthatja, ha megnéz egy mintagyűjteményt, az azonos méretű mintákból származik.
Ha meg szeretné tudni, hogy milyen közel áll a normalitáshoz bizonyos mintaméreteknél , jelentős számú mintaeszközre lehet szüksége. Szimulációs kísérletek során több ezer ilyen mintát kell megnézni, hogy jól megértsük az eloszlás alakját.
A képen 20, 300 és 100000 minta átlag hisztogramja látható n = 30 méretű mintákhoz ferde eloszlásból . Van némi érzékünk a tág alakzatról az elsőben, valamivel világosabb értelemben a másodikban, de elég világos képet kapunk a minták ezen eloszlásának alakjáról a harmadikban, ahol nagy a minta átlag realizációinak száma.
Ebben az esetben a minta azt jelenti, hogy a közeli eloszlásnak nincs közel normális eloszlása; n = 30 nem lenne elegendő ahhoz, hogy ezeket az eszközöket megközelítőleg normálisan elosztottként kezeljük (legalábbis tipikus célokra nem).
Ha jól meg akarja érteni, hogyan viselkedik az elosztás farkai, akkor számottevően nagyobb számú mintaeszközre lehet szüksége.
Amikor azonban valós adatokkal foglalkozik, általában csak egy egyetlen minta. A következtetését (függetlenül attól, hogy a CLT-re támaszkodik-e vagy sem) arra az egyetlen mintára kell alapoznia.
-
Lehet, hogy megtévesztették azt, amit a központi határtétel mond.
A tényleges központi határtétel nem mond semmit sem az n = 30-ról, sem más véges mintaméretről.
Ehelyett tétel a standardizált eszközök (vagy összegek) viselkedéséről az n határ a végtelenségig tart.
-
Bár igaz, hogy (bizonyos körülmények között) a mintaeszközök megközelítőleg normális eloszlásúak lesznek (bizonyos értelemben közelítőek), ha a a minta nagysága elég nagy, az, hogy mi minősül bizonyos célokra “elég nagynak”, több tényezőtől függ.Amint azt a fenti ábrán láthatjuk, a ferdülés (például) jelentős hatással lehet a normalitás megközelítésére (ha a populáció ferde, akkor a mintaeszközök eloszlása is torz, de a mintanagyság növekedésével kevésbé).
Megjegyzések
- Köszönjük a remek választ! Gyors kérdésem lenne róla:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. A cselekményed alapján ez azt jelenti, hogy húztál 20, 300, 1000000 mintát (és ugyanannyi minta átlagot kapsz), és mindegyik méretű minta 30, és nem számít, hány mintát vettél (vagy hányszor vettél mintát) ), nincs hatása a dist. a minta azt jelenti, hogy normalitás? Vagy esetleg ellentétesen értem a cikkét …? - Mert én csak Python által szimuláltam a CLT-t egységes disztribúcióval. 300 mintával (mindegyik méret 10), és ez meglehetősen normálisnak tűnik, ezért kissé zavaros vagyok.
- A eloszlás alakja , amelyből merít, határozottan számít; az egyenruha egy ' szép ' eset, amikor a 10-nél kisebb n is a normálishoz közel a legtöbb célra (30 túl magas a sávot, hacsak ' nem jutsz jól a farokba). Ha 1000 mintát vagy 1-et (mindegyik n = 10) végzett, az átlagok eloszlása megegyezik, mindaddig, amíg ugyanazon populáció-eloszlás mellett marad. Ha utánozni szeretné a képeimet, próbáljon ki egy gamma elosztást, amelynek formája 0,05 (a skála vagy a sebességparaméter nem számít, amíg nem ' t változtassa meg); egyenértékűen kipróbálhat egy chi-négyzetet 0,1 d.f-vel.
- Ne feledje, hogy az egyenruhából vett mintaeszközök szépek és normális megjelenésűek, de (bizonyíthatóan) valójában nem normálisak; könnyebb farkúak, mint a normál (valóban véges tartományuk van). Ez a nem normális lehet, hogy nem számít sokat, attól függően, hogy mit csinálsz ' velük.
- Wow, yeah, gamma dist. világosan megmutatja, amit fentebb kifejtett: a minta átlagának száma nincs hatással. Tévesen értem a CLT-t, köszönöm. Azt is megtudtam, hogy azt gondoltam, hogy " pontbecslés " CLT-n alapul, és nem tudtam ' t megérteni, hogy a pontbecslés miért használ csak egy mintagyűjteményt a populációs paraméterek következtetésére. Köszönöm a segítséget 🙂
Vélemény, hozzászólás?