O Teorema do Limite Central precisa apenas do tamanho da amostra, N?
On Fevereiro 15, 2021 by adminAcho que explicar o teorema do limite central precisa de dois elementos: o tamanho da amostra e o número de amostras retiradas.
Mas ninguém parece fale sobre o número de amostras retiradas quando eles estão fazendo alguma infererência $ \ mu $ usando o teorema do limite central e mencione apenas o tamanho da amostra, $ N $ e sua distribuição, o que significa que eles usam apenas um grupo de amostra para inferir a população $ \ mu $ .
Achei, no entanto, que deveria haver muitas amostras de cada um de pelo menos 30 elementos e, portanto, muitas amostras de “meios” e sua distribuição, não apenas a distribuição de um grupo de amostra.
Por favor, gentilmente me ajude a entender corretamente o Teorema do Limite Central e inferir a média da população, $ \ mu $ .
Comentários
- Alguém pode explicar o que ' não está claro sobre a pergunta?
- @Glen_b Eu não ' t entendo como " número de tamanho da amostra " e " número de amostras de desenho " são diferentes.
- Você ' está desenhando várias amostras, cada de tamanho N (o " tamanho da amostra "); a outra quantidade é quantas dessas amostras você extraiu (" número de amostras "). Eu acho que poderia ser esclarecido um pouco com uma edição.
- @Sycorax: Eu ' limpei um pouco o fraseado, mas além do OP não ter inglês como primeira língua (e alguns equívocos importantes, mas não incomuns), parecia claro para mim
- @Roy I ' Acabei de notar que ' sa questão relacionada aqui: stats.stackexchange.com/questions/133931/…
Resposta
-
Uma única variável aleatória tem uma distribuição; uma média de amostra de uma amostra aleatória é uma única variável aleatória. É claro que você só pode observar sua distribuição olhando para várias amostras aleatórias (como médias de várias amostras); então, à medida que o número de tais amostras aumenta, o cdf da amostra (empírica) se aproxima da função de distribuição da população. O erro padrão do cdf da amostra sobre o cdf da população diminui conforme a raiz quadrada do tamanho da amostra (quadruplique o tamanho da amostra e você divide o erro padrão pela metade).
Em suma, o número de amostras que você tira (cada um de tamanho $ n $ ) não tem impacto sobre o quão próxima é a distribuição das médias da amostra para ser normal … apenas na precisão com que você pode ver quando você olha para uma coleção de amostras significa todas as amostras do mesmo tamanho.
Para ver o quão perto você está da normalidade em algum tamanho de amostra , você pode precisar de um número substancial de meios de amostra. Em experimentos de simulação, é comum observar milhares de tais amostras para ter uma boa noção da forma de distribuição.
A imagem mostra histogramas de 20, 300 e 100.000 médias amostrais para amostras de tamanho n = 30 de uma distribuição enviesada . Temos alguma noção da forma ampla no primeiro, um sentido um pouco mais claro no segundo, mas temos uma ideia bastante clara da forma desta distribuição das médias da amostra no terceiro, onde temos um grande número de realizações da média da amostra.
Neste caso, os meios de amostra não têm uma distribuição próxima a normal; n = 30 não seria suficiente para tratar esses meios como aproximadamente normalmente distribuídos (pelo menos não para fins típicos).
Se você deseja ter uma boa noção de como as caudas da distribuição se comportam, pode ser necessário um número consideravelmente maior de médias de amostra.
No entanto, quando você está lidando com dados reais, geralmente obtém apenas um amostra única. Você tem que basear sua inferência (se você confia no CLT ou não) nessa amostra.
-
Você pode ter se enganado sobre o que diz o teorema do limite central.
O real teorema do limite central não diz nada sobre n = 30 nem sobre qualquer outro tamanho de amostra finito.
Em vez disso, é um teorema sobre o comportamento de meios padronizados (ou somas) em o limite quando n vai para o infinito.
-
Embora seja verdade que (sob certas condições) as médias da amostra serão distribuídas aproximadamente normalmente (em um sentido específico de aproximado) se o o tamanho da amostra é grande o suficiente, o que constitui “grande o suficiente” para algum propósito depende de vários fatores.Como vemos no gráfico acima, a assimetria pode (por exemplo) ter um impacto substancial na abordagem da normalidade (se a população for distorcida, a distribuição das médias da amostra também é distorcida, mas menos com o aumento do tamanho da amostra) >
Comentários
- Obrigado pela sua ótima resposta! Tenho uma pergunta rápida sobre isso:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. Com base em seu gráfico, isso significa que você desenhou 20, 300, 1000000 amostras (e obtém o mesmo número de médias de amostra) e cada amostra de tamanho é 30, e não importa quantas amostras você desenhou (ou quantas vezes você desenhou amostras ), não tem impacto no dist. da amostra significa ser normalidade? Ou possivelmente entendo seu artigo de maneira oposta …? - Porque acabei de simular CLT por Python com dist uniforme. com 300 amostras (cada tamanho tem 10), e parece bastante normal, por isso estou um pouco confuso.
- A forma da distribuição que você extrai definitivamente importa; o uniforme é um ' bom ' caso em que n menor que 10 é muito próximo do normal para a maioria dos propósitos (30 é muito alto a bar, a menos que você ' esteja indo bem no final). Se você fez 1000 amostras ou 1 (cada n = 10), a distribuição das médias é a mesma, contanto que você se mantenha na mesma distribuição da população. Se você quiser emular minhas fotos, tente uma distribuição gama com formato 0,05 (o parâmetro de escala ou taxa não ' importa contanto que você não ' t alterá-lo); de forma equivalente, você poderia tentar um qui-quadrado com 0,1 d.f.
- Observe que suas médias de amostra de um uniforme são boas e de aparência normal, mas (comprovadamente) não são realmente normais; eles têm cauda mais leve do que o normal (na verdade, eles têm uma faixa finita). Essa não normalidade pode não importar muito, dependendo do que você ' está fazendo com eles.
- Uau, sim, gamma dist. mostra claramente o que você explicou acima: o número de médias de amostra não tem impacto. Eu entendi CLT erroneamente, obrigado. E também descobri que achava que a " estimativa de pontos " é baseada no CLT e não poderia ' t entenda por que a estimativa de pontos usa apenas uma coleção de amostra para inferir parâmetros populacionais. Obrigado pela sua ajuda 🙂
Deixe uma resposta