Centralne twierdzenie graniczne wymaga tylko wielkości próbki, N?
On 15 lutego, 2021 by adminMyślę, że wyjaśnienie centralnego twierdzenia granicznego wymaga dwóch elementów: wielkości próby i liczby pobranych próbek.
Ale wydaje się, że nikt nie mówić o liczbie próbek narysowanych, gdy dokonują pewnych ingerencji $ \ mu $ , używając centralnego twierdzenia granicznego i wspominając tylko o wielkości próbki, $ N $ i jego dystrybucja, co oznacza, że używają tylko jednej grupy próbek do wnioskowania o populacji $ \ mu $ .
Pomyślałem jednak, że powinno być dużo próbek, każdy z co najmniej 30 elementów, a co za tym idzie, dużo próbnych „średnich” i ich rozkład, a nie tylko rozkład jednej grupy próbek.
Uprzejmie proszę o pomoc w poprawnym zrozumieniu centralnego twierdzenia granicznego i wnioskowaniu o średniej populacji, $ \ mu $ .
Komentarze
- Czy ktoś może wyjaśnić, co ' nie jest jasne w pytaniu?
- @Glen_b Nie ' nie rozumiem, jak " liczba wielkości próbki " i " liczba próbek rysunku " są różne.
- Ty ' rysujesz wiele próbek, każda rozmiaru N (the " wielkość próbki "); druga ilość to liczba narysowanych takich próbek (" liczba próbek "). Wydaje mi się, że można to trochę wyjaśnić edycją.
- @Sycorax: I ' poprawiłem trochę frazę, ale poza tym OP nie mam angielskiego jako pierwszy język (i kilka poważnych, ale nierzadkich nieporozumień) wydawało mi się jasne
- @Roy I ' właśnie zauważyłem ' sa podobne pytanie: stats.stackexchange.com/questions/133931/…
Odpowiedź
-
Pojedyncza zmienna losowa ma rozkład; średnia z próby losowej jest pojedynczą zmienną losową. Oczywiście można obserwować jego rozkład tylko patrząc na wiele losowych próbek (takich jak średnie z wielu prób); wtedy wraz ze wzrostem liczby takich próbek próbka (empiryczna) cdf zbliży się do funkcji rozkładu populacji. Standardowy błąd cdf próbki dotyczący cdf populacji zmniejsza się jako pierwiastek kwadratowy wielkości próby (czterokrotnie zwiększa się wielkość próby i zmniejsza się o połowę błąd standardowy).
Krótko mówiąc, liczba pobranych próbek (każda o rozmiarze $ n $ ) nie ma wpływu na to, jak bliski jest rozkład średnich prób do bycia normalnym … tylko na podstawie tego, jak dokładnie możesz to zobaczyć, patrząc na zbiór próbek, oznacza wszystkie z próbek o tej samej wielkości.
Aby zobaczyć, jak blisko jesteś normalności przy pewnym rozmiarze próby , możesz potrzebować znacznej liczby próbnych średnich. W eksperymentach symulacyjnych często patrzy się na tysiące takich próbek, aby uzyskać dobre wyobrażenie o kształcie rozkładu.
Rysunek przedstawia histogramy 20, 300 i 100000 średnich z próbek dla próbek o rozmiarze n = 30 z rozkładu skośnego . W pierwszym mamy pewne poczucie szerokiego kształtu, w drugim nieco wyraźniejsze, ale w trzecim mamy dość wyraźne wyobrażenie o kształcie tego rozkładu średnich próbek, gdzie mamy duże liczba realizacji średniej próby.
W tym przypadku próbka oznacza, że nie ma rozkładu zbliżonego do normalnego; n = 30 nie wystarczy, aby traktować te średnie jako rozkład w przybliżeniu normalny (przynajmniej nie do typowych celów).
Jeśli chcesz mieć dobre pojęcie o tym, jak zachowują się ogony rozkładu, możesz potrzebować znacznie większej liczby średnich próbnych.
Jednak gdy masz do czynienia z rzeczywistymi danymi, zazwyczaj otrzymujesz tylko pojedyncza próbka. Musisz oprzeć swoje wnioskowanie (niezależnie od tego, czy polegasz na CLT, czy nie) na tej jednej próbce.
-
Mogłeś zostać wprowadzony w błąd co do tego, co mówi centralne twierdzenie graniczne.
Rzeczywiste centralne twierdzenie graniczne nic nie mówi o n = 30 ani o żadnej innej skończonej wielkości próby.
Zamiast tego jest twierdzeniem o zachowaniu standardowych średnich (lub sum) w granica, gdy n dochodzi do nieskończoności.
-
Chociaż prawdą jest, że (w pewnych warunkach) średnie próbki będą miały w przybliżeniu rozkład normalny (w szczególnym sensie przybliżenia), jeśli wielkość próby jest wystarczająco duża, a to, co w jakimś celu stanowi „dostatecznie dużą”, zależy od kilku czynników.Jak widać na powyższym wykresie, skośność może (na przykład) mieć istotny wpływ na podejście do normalności (jeśli populacja jest wypaczona, rozkład średnich z próby jest również wypaczony, ale mniejszy wraz ze wzrostem wielkości próby).
Komentarze
- Dziękujemy za wspaniałą odpowiedź! Mam na ten temat krótkie pytanie:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Na podstawie twojego wykresu, czy oznacza to, że narysowałeś 20, 300, 1000000 próbek (i otrzymałeś taką samą liczbę średnich próbek), a każda próbka ma 30 i nieważne, ile próbek narysowałeś (lub ile razy narysowałeś próbki ), nie ma to wpływu na odległość. próbki oznacza normalność? A może rozumiem twój artykuł w inny sposób …? - Ponieważ właśnie zasymulowałem CLT w Pythonie z jednolitą odległością. z 300 samplami (każdy o rozmiarze 10) i wygląda to całkiem normalnie, więc jestem trochę zdezorientowany.
- Kształt dystrybucji , z której rysujesz, ma zdecydowanie znaczenie; mundur jest ' fajnym ' przypadkiem, w którym n nawet mniejsze niż 10 jest bardzo zbliżone do normalnego w większości zastosowań (30 to za wysokie a bar, chyba że ' wchodzisz w sam środek ogona). Jeśli wykonałeś 1000 próbek lub 1 (każda n = 10), rozkład średnich jest taki sam, o ile trzymasz się tego samego rozkładu populacji. Jeśli chcesz emulować moje zdjęcia, wypróbuj rozkład gamma o kształcie 0,05 (parametr skali lub współczynnika nie ' nie ma znaczenia, o ile nie ' t zmień to); równoważnie możesz wypróbować chi-kwadrat z 0,1 d.f.
- Zauważ, że średnie próbne z munduru są ładne i normalnie wyglądające, ale (jak widać) nie są w rzeczywistości normalne; mają jaśniejsze ogony niż normalne (w rzeczywistości mają ograniczony zasięg). Ta nienormalność może nie mieć większego znaczenia, w zależności od tego, co ' z nimi robisz.
- Wow, tak, odległość gamma. jasno pokazuje to, co wyjaśniłeś powyżej: liczba próbnych średnich nie ma wpływu. Źle rozumiem CLT, dzięki. Dowiedziałem się też, że wydaje mi się, że " punktowa ocena " jest oparta na CLT i nie może ' t rozumie, dlaczego estymacja punktowa wykorzystuje tylko jeden zbiór próbek do wnioskowania o parametrach populacji. Dzięki za pomoc 🙂
Dodaj komentarz