Le théorème central limite na besoin que de la taille de léchantillon, N?
On février 15, 2021 by adminJe pense que lexplication du théorème central de la limite nécessite deux éléments: la taille de léchantillon et le nombre déchantillons prélevés.
Mais personne ne semble parler du nombre déchantillons prélevés lorsquils font une inférence $ \ mu $ en utilisant le théorème central limite et ne mentionner que la taille de léchantillon, $ N $ et sa distribution, ce qui signifie quils nutilisent quun seul échantillon de groupe pour déduire la population $ \ mu $ .
Jai pensé, cependant, quil devrait y avoir beaucoup déchantillons chacun dau moins 30 éléments, et par conséquent, beaucoup déchantillons « signifie », et leur distribution, pas seulement la distribution dun groupe déchantillons.
Merci de bien vouloir maider à comprendre correctement le théorème central des limites et à déduire la moyenne de la population, $ \ mu $ .
Commentaires
- Quelquun peut-il expliquer ce que ' nest pas clair sur la question?
- @Glen_b Je ne sais pas ' t comprendre comment " nombre de taille déchantillon " et " le nombre déchantillons de dessin " est différent.
- Vous ' dessinez plusieurs échantillons, chacun de taille N (la " taille de léchantillon "); lautre quantité est le nombre déchantillons que vous en tirez (" nombre déchantillons "). Je suppose que cela pourrait être clarifié un peu avec une modification.
- @Sycorax: ' jai un peu nettoyé le phrasé, mais en plus lOP na pas langlais comme première langue (et quelques idées fausses majeures, mais pas rares), cela me semblait clair
- @Roy Je ' je viens de le remarquer ' une question connexe ici: stats.stackexchange.com/questions/133931/…
Réponse
-
Une seule variable aléatoire a une distribution; la moyenne dun échantillon provenant dun échantillon aléatoire est une seule variable aléatoire. Bien sûr, vous ne pouvez observer sa distribution quen regardant plusieurs échantillons aléatoires (tels que plusieurs échantillons moyens); alors, à mesure que le nombre de ces échantillons augmente, léchantillon (empirique) cdf se rapprochera de la fonction de distribution de la population. Lerreur standard de léchantillon cdf sur la population cdf diminue à mesure que la racine carrée de la taille de léchantillon (quadruple la taille de léchantillon et vous divisez par deux lerreur standard).
En bref, le nombre déchantillons que vous prenez (chacun de taille $ n $ ) na aucun impact sur la proximité de la distribution des moyennes des échantillons. à être normal … seulement sur la précision avec laquelle vous pouvez le voir lorsque vous regardez une collection déchantillons signifie tous à partir déchantillons de la même taille.
Pour voir à quel point vous êtes proche de la normalité à une certaine taille déchantillon , vous aurez peut-être besoin dun nombre important déchantillons. Dans les expériences de simulation, il est courant de regarder des milliers de ces échantillons afin davoir une bonne idée de la forme distributionnelle.
Limage montre des histogrammes de 20, 300 et 100000 moyennes déchantillons pour des échantillons de taille n = 30 dune distribution asymétrique . Nous avons un sens de la forme large dans le premier, un sens un peu plus clair de celui-ci dans le second, mais nous avons une idée assez claire de la forme de cette distribution des moyennes déchantillons dans le troisième, où nous avons un grand nombre de réalisations de la moyenne de léchantillon.
Dans ce cas, léchantillon signifie que « t nont pas une distribution proche de la normale; n = 30 ne serait pas suffisant pour traiter ces moyennes comme distribuées à peu près normalement (du moins pas à des fins typiques).
Si vous voulez avoir une bonne idée de la façon dont les queues de la distribution se comportent, vous aurez peut-être besoin dun nombre considérablement plus important de moyennes déchantillons.
Cependant, lorsque vous « traitez avec des données réelles, vous nobtenez généralement quun échantillon unique. Vous devez baser votre inférence (que vous vous fiez au CLT ou non) sur cet échantillon.
-
Vous avez peut-être été induit en erreur sur ce que dit le théorème de la limite centrale.
Le réel théorème de la limite centrale ne dit rien sur n = 30 ni sur aucune autre taille d’échantillon finie.
Il s’agit plutôt d’un théorème sur le comportement des moyennes (ou sommes) standardisées dans la limite lorsque n va à linfini.
-
Sil est vrai que (dans certaines conditions) les moyennes déchantillon seront à peu près normalement distribuées (dans un sens particulier dapproximation) si le la taille de léchantillon est suffisamment grande, ce qui constitue «assez grand» pour un certain objectif dépend de plusieurs facteurs.Comme nous le voyons dans le graphique ci-dessus, lasymétrie peut (par exemple) avoir un impact substantiel sur lapproche de la normalité (si la population est biaisée, la distribution des moyennes de léchantillon est également biaisée, mais moins avec laugmentation de la taille de léchantillon).
Commentaires
- Merci pour votre excellente réponse! Jai une petite question à ce sujet:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Sur la base de votre tracé, cela signifie-t-il que vous avez prélevé 20, 300, 1000000 échantillons (et obtenez le même nombre déchantillons moyens) et que chaque échantillon de taille est de 30, et quel que soit le nombre déchantillons que vous avez prélevé (ou le nombre de fois que vous avez prélevé des échantillons ), il na aucun impact sur le dist. de léchantillon signifie être la normalité? Ou je comprends peut-être votre article dune manière opposée …? - Parce que je viens de simuler CLT par Python avec dist uniforme. avec 300 échantillons (chacun dune taille de 10), et cela semble tout à fait normal, et je suis donc un peu confus.
- La forme de la distribution que vous dessinez compte vraiment; luniforme est un cas ' joli ' où n encore plus petit que 10 est assez proche de la normale pour la plupart des cas (30 est un bar sauf si vous ' vous mettez bien dans la queue). Si vous aviez fait 1000 échantillons ou 1 (chacun n = 10), la distribution des moyennes est la même, tant que vous vous en tenez à la même distribution de population. Si vous souhaitez émuler mes images, essayez une distribution gamma de forme 0,05 (le paramètre déchelle ou de taux na ' pas dimportance tant que vous navez ' t le changer); de manière équivalente, vous pouvez essayer un chi carré avec 0,1 d.f.
- Notez que les moyennes de votre échantillon dun uniforme sont belles et normales mais ne sont (manifestement) pas réellement normales; ils ont une queue plus légère que la normale (en effet, ils ont une plage finie). Cette non-normalité na pas beaucoup dimportance, selon ce que vous ' faites avec eux.
- Wow, oui, gamma dist. montre clairement ce que vous avez expliqué ci-dessus: le nombre de moyennes déchantillons na aucun impact. Je comprends mal CLT, merci. Et jai aussi découvert que je pensais que l " estimation des points " est basée sur CLT et que ' t comprendre pourquoi lestimation ponctuelle nutilise quune seule collection déchantillons pour déduire les paramètres de population. Merci pour votre aide 🙂
Laisser un commentaire