El teorema del límite central solo necesita un tamaño de muestra, N?
On febrero 15, 2021 by adminCreo que para explicar el teorema del límite central se necesitan dos elementos: el tamaño de la muestra y el número de muestras extraídas.
Pero nadie parece saber hablar sobre el número de muestras extraídas cuando están haciendo alguna inferencia $ \ mu $ usando el teorema del límite central y solo mencionar el tamaño de la muestra, $ N $ y su distribución, lo que significa que solo usan un grupo de muestra para inferir la población $ \ mu $ .
Sin embargo, pensé que debería haber muchas muestras, cada una de al menos 30 elementos y, en consecuencia, muchas «medias» de muestra y su distribución, no solo la distribución de un grupo de muestra.
Por favor, ayúdeme a comprender correctamente el teorema del límite central y a inferir la media de la población, $ \ mu $ .
Comentarios
- ¿Alguien puede explicar qué ' no está claro acerca de la pregunta?
- @Glen_b No ' No entiendo cómo " número de tamaño de muestra " y " número de muestras de dibujo " son diferentes.
- Usted ' está dibujando varias muestras, cada una de tamaño N (el " tamaño de muestra "); la otra cantidad es la cantidad de muestras que extrae (" número de muestras "). Supongo que podría aclararse un poco con una edición.
- @Sycorax: I ' he limpiado un poco la redacción, pero además el OP no tiene inglés como primer idioma (y algunos conceptos erróneos importantes, pero no infrecuentes) me pareció claro
- @Roy I ' acabo de notarlo ' una pregunta relacionada aquí: stats.stackexchange.com/questions/133931/…
Respuesta
-
Una sola variable aleatoria tiene una distribución; una media muestral de una muestra aleatoria es una única variable aleatoria. Por supuesto, solo puede observar su distribución mirando varias muestras aleatorias (como medias de varias muestras); luego, a medida que aumenta el número de tales muestras, la CDF muestral (empírica) se acercará a la función de distribución de la población. El error estándar de la CDF muestral sobre la CDF poblacional disminuye a medida que la raíz cuadrada del tamaño de la muestra (cuadruplique el tamaño de la muestra y se reducirá a la mitad el error estándar).
En resumen, la cantidad de muestras que toma (cada una de tamaño $ n $ ) no tiene ningún impacto en la proximidad de la distribución de las medias de las muestras a ser normal … solo en la precisión con la que puede verlo cuando mira una colección de muestras, todas de muestras del mismo tamaño.
Para ver qué tan cerca está de la normalidad en algún tamaño de muestra , es posible que necesite una cantidad considerable de medias de muestra. En los experimentos de simulación, es común observar miles de muestras de este tipo para tener una buena idea de la forma de distribución.
La imagen muestra histogramas de 20, 300 y 100000 medias de muestra para muestras de tamaño n = 30 de una distribución asimétrica . Tenemos algo de sentido de la forma amplia en el primero, un sentido algo más claro en el segundo, pero tenemos una idea bastante clara de la forma de esta distribución de medias muestrales en el tercero, donde tenemos una gran número de realizaciones de la media muestral.
En este caso, los medios de muestra no tienen una distribución cercana a la normal; n = 30 no sería suficiente para tratar estos medios como distribuidos aproximadamente normalmente (al menos no para propósitos típicos).
Si desea tener una buena idea de cómo se comportan las colas de la distribución, es posible que necesite un número considerablemente mayor de medias de muestra.
Sin embargo, cuando se trata de datos reales, generalmente solo obtiene un muestra única. Debe basar su inferencia (ya sea que confíe en el CLT o no) en esa única muestra.
-
Es posible que te hayan engañado acerca de lo que dice el teorema del límite central.
El real teorema del límite central no dice nada sobre n = 30 ni sobre ningún otro tamaño de muestra finito.
Es, en cambio, un teorema sobre el comportamiento de las medias (o sumas) estandarizadas en el límite cuando n va al infinito.
-
Si bien es cierto que (bajo ciertas condiciones) las medias de la muestra se distribuirán aproximadamente normalmente (en un sentido particular de aproximación) si la El tamaño de la muestra es suficientemente grande, lo que constituye «suficientemente grande» para algún propósito depende de varios factores.Como vemos en el gráfico anterior, la asimetría puede (por ejemplo) tener un impacto sustancial en el enfoque de la normalidad (si la población está sesgada, la distribución de las medias muestrales también está sesgada, pero menos al aumentar el tamaño de la muestra). >
Comentarios
- ¡Gracias por su excelente respuesta! Tengo una pregunta rápida al respecto:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Según su gráfico, ¿significa que extrajo 20, 300, 1000000 muestras (y obtiene el mismo número de medias muestrales) y cada muestra de tamaño es 30, y no importa cuántas muestras extrajo (o cuántas veces extrajo muestras ), no tiene ningún impacto en el dist. de muestra significa ser normalidad? ¿O posiblemente entiendo su artículo de manera opuesta …? - Porque acabo de simular CLT por Python con dist uniforme. con 300 muestras (cada una de tamaño es 10), y parece bastante normal, por lo que estoy un poco confundido.
- La forma de la distribución que dibuja definitivamente importa; el uniforme es un caso ' agradable ' donde n incluso menor que 10 es bastante cercano a lo normal para la mayoría de los propósitos (30 es un valor demasiado alto bar a menos que ' se esté metiendo bien en la cola). Si ha hecho 1000 muestras o 1 (cada n = 10), la distribución de medias es la misma, siempre que se ciña a la misma distribución de población. Si quieres emular mis imágenes, prueba una distribución gamma con forma de 0.05 (el parámetro de escala o tasa no ' importa siempre que no ' t cambiarlo); de manera equivalente, podría probar un chi-cuadrado con 0.1 d.f.
- Tenga en cuenta que las medias de la muestra de un uniforme son agradables y de apariencia normal, pero (demostrablemente) no son realmente normales; tienen colas más claras que las normales (de hecho, tienen un rango finito). Esta no normalidad puede no importar mucho, dependiendo de lo que ' estés haciendo con ellos.
- Vaya, sí, gamma dist. muestra claramente lo que explicó anteriormente: el número de medias de muestra no tiene ningún impacto. Entiendo mal CLT, gracias. Y también descubrí que pensaba que la " estimación de puntos " se basa en CLT y no podría ' t entender por qué la estimación puntual utiliza una sola colección de muestra para inferir parámetros de población. Gracias por tu ayuda 🙂
Deja una respuesta