Der zentrale Grenzwertsatz benötigt nur die Stichprobengröße N?
On Februar 15, 2021 by adminIch denke, die Erklärung des zentralen Grenzwertsatzes erfordert zwei Elemente: die Stichprobengröße und die Anzahl der gezogenen Stichproben.
Aber niemand scheint dies zu tun Sprechen Sie mit dem zentralen Grenzwertsatz über die Anzahl der gezogenen Stichproben, wenn sie einen Rückschluss $ \ mu $ ziehen, und erwähnen Sie nur die Stichprobengröße $ N $ und seine Verteilung, dh sie verwenden nur eine Stichprobengruppe, um auf die Population $ \ mu $ zu schließen.
Ich dachte jedoch, es sollte viele Stichproben mit jeweils mindestens 30 Elementen geben, und dementsprechend bedeutet viele Stichproben „Mittel“ und deren Verteilung, nicht nur die Verteilung einer Stichprobengruppe.
Bitte helfen Sie mir, den zentralen Grenzwertsatz richtig zu verstehen und auf den Populationsmittelwert $ \ mu $ zu schließen.
Kommentare
- Kann jemand erklären, was ' über die Frage unklar ist?
- @Glen_b I don ' verstehe nicht, wie " Anzahl der Stichprobengrößen " und " Anzahl der Zeichnungsmuster " ist unterschiedlich.
- Sie ' zeichnen jeweils mehrere Muster der Größe N (die " Stichprobengröße "); Die andere Menge gibt an, wie viele solcher Stichproben Sie ziehen (" Anzahl der Stichproben "). Ich denke, es könnte ein wenig mit einer Bearbeitung geklärt werden.
- @Sycorax: Ich ' habe die Formulierung ein wenig aufgeräumt, aber abgesehen davon, dass das OP kein Englisch hat Als Muttersprache (und einige wichtige, aber nicht ungewöhnliche Missverständnisse) schien es mir klar,
- @Roy I ' habe es gerade dort bemerkt ' ist eine verwandte Frage hier: stats.stackexchange.com/questions/133931/…
Antwort
-
Eine einzelne Zufallsvariable hat eine Verteilung. Ein Stichprobenmittelwert aus einer Zufallsstichprobe ist eine einzelne Zufallsvariable. Natürlich können Sie die Verteilung nur beobachten, indem Sie mehrere Zufallsstichproben betrachten (z. B. mehrere Stichprobenmittel). dann, wenn die Anzahl solcher Stichproben zunimmt, nähert sich das (empirische) PDF der Stichprobe der Populationsverteilungsfunktion. Der Standardfehler des Stichproben-PDF über die Grundgesamtheit nimmt mit der Quadratwurzel der Stichprobengröße ab (vervierfachen Sie die Stichprobengröße und halbieren Sie den Standardfehler).
Kurz gesagt, die Anzahl der von Ihnen entnommenen Stichproben (jeweils mit der Größe $ n $ ) hat keinen Einfluss darauf, wie eng die Verteilung der Stichprobenmittelwerte ist normal zu sein … nur wie genau Sie es sehen können, wenn Sie eine Sammlung von Stichproben betrachten, bedeutet, dass alle Stichproben derselben Größe sind.
Um zu sehen, wie nahe Sie bei einer bestimmten Stichprobengröße an der Normalität sind Möglicherweise benötigen Sie eine erhebliche Anzahl von Probenmitteln. In Simulationsexperimenten ist es üblich, Tausende solcher Proben zu betrachten, um ein gutes Gefühl für die Verteilungsform zu bekommen.
Das Bild zeigt Histogramme von 20, 300 und 100000 Stichprobenmitteln für Stichproben der Größe n = 30 aus einer verzerrten Verteilung . Wir haben ein Gefühl für die breite Form in der ersten, ein etwas klareres Gefühl in der zweiten, aber wir bekommen eine ziemlich klare Vorstellung von der Form dieser Verteilung der Stichprobenmittel in der dritten, wo wir eine große haben Anzahl der Realisierungen des Stichprobenmittelwerts.
In diesem Fall haben Stichprobenmittel keine nahezu normale Verteilung; n = 30 würde nicht ausreichen, um diese Mittel als annähernd normal verteilt zu behandeln (zumindest nicht für typische Zwecke).
Wenn Sie ein gutes Gefühl dafür haben möchten, wie sich die Schwänze der Verteilung verhalten, benötigen Sie möglicherweise eine erheblich größere Anzahl von Stichprobenmitteln.
Wenn Sie jedoch mit realen Daten arbeiten, erhalten Sie im Allgemeinen nur eine Einzelprobe. Sie müssen Ihre Schlussfolgerung (unabhängig davon, ob Sie sich auf die CLT verlassen oder nicht) auf diese eine Stichprobe stützen.
-
Möglicherweise wurden Sie über die Aussagen des zentralen Grenzwertsatzes in die Irre geführt.
Die tatsächliche zentraler Grenzwertsatz sagt nichts über n = 30 oder irgendeine andere endliche Stichprobengröße aus.
Es ist stattdessen ein Satz über das Verhalten standardisierter Mittelwerte (oder Summen) in Die Grenze als n geht gegen unendlich.
-
Während es wahr ist, dass (unter bestimmten Bedingungen) Probenmittel ungefähr normalverteilt sind (in einem bestimmten Sinne von ungefähr), wenn die Die Stichprobengröße ist groß genug. Was für einen bestimmten Zweck „groß genug“ ist, hängt von mehreren Faktoren ab.Wie wir in der obigen Darstellung sehen, kann die Schiefe (zum Beispiel) einen erheblichen Einfluss auf die Annäherung an die Normalität haben (wenn die Population verzerrt ist, wird auch die Verteilung der Stichprobenmittel verzerrt, jedoch mit zunehmender Stichprobengröße weniger). P. >
Kommentare
- Vielen Dank für Ihre großartige Antwort! Ich habe eine kurze Frage dazu:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Bedeutet dies, dass Sie basierend auf Ihrem Diagramm 20, 300, 1000000 Proben gezogen haben (und die gleiche Anzahl von Probenmitteln erhalten haben) und jede Probe der Größe 30 ist, unabhängig davon, wie viele Proben Sie gezogen haben (oder wie oft Sie Proben gezogen haben) ) hat es keinen Einfluss auf die dist. Probe bedeutet Normalität? Oder ich verstehe Ihren Artikel möglicherweise anders …? - Weil ich gerade CLT von Python mit einheitlichem dist simuliert habe. mit 300 Proben (jede Größe ist 10), und es sieht ziemlich normal aus, und deshalb bin ich ein bisschen verwirrt.
- Die Form der Verteilung , aus der Sie zeichnen, ist definitiv wichtig; Die Uniform ist ein ' schöner ' Fall, in dem n, sogar kleiner als 10, für die meisten Zwecke ziemlich normal ist (30 ist zu hoch a Balken, es sei denn, Sie ' kommen gut in den Schwanz). Wenn Sie 1000 Stichproben oder 1 (jeweils n = 10) durchgeführt haben, ist die Verteilung der Mittelwerte dieselbe, solange Sie sich an dieselbe Bevölkerungsverteilung halten. Wenn Sie meine Bilder emulieren möchten, versuchen Sie es mit einer Gammaverteilung mit der Form 0,05 (der Skalierungs- oder Ratenparameter spielt keine Rolle, ', solange Sie nicht ' t ändere es); Entsprechend könnten Sie ein Chi-Quadrat mit 0,1 df versuchen.
- Beachten Sie, dass Ihre Stichprobenmittel aus einer Uniform schön und normal aussehen, aber (nachweislich) nicht wirklich normal sind. Sie sind leichter als normal (tatsächlich haben sie eine begrenzte Reichweite). Diese Nicht-Normalität spielt möglicherweise keine große Rolle, je nachdem, was Sie ' mit ihnen machen.
- Wow, ja, gamma dist. zeigt deutlich, was Sie oben erklärt haben: Die Anzahl der Stichprobenmittel hat keinen Einfluss. Ich verstehe CLT falsch, danke. Und ich fand auch heraus, dass ich dachte, " Punktschätzung " basiert auf CLT und könnte nicht ' Ich verstehe nicht, warum die Punktschätzung nur eine Probensammlung verwendet, um auf Populationsparameter zu schließen. Vielen Dank für Ihre Hilfe :)
Schreibe einen Kommentar