Il teorema del limite centrale richiede solo la dimensione del campione, N?
Su Febbraio 15, 2021 da adminPenso che per spiegare il teorema del limite centrale siano necessari due elementi: la dimensione del campione e il numero di campioni estratti.
Ma nessuno sembra parlare del numero di campioni estratti quando stanno facendo delle infererenze $ \ mu $ usando il teorema del limite centrale e menzionare solo la dimensione del campione, $ N $ e la sua distribuzione, il che significa che usano solo un gruppo campione per dedurre la popolazione $ \ mu $ .
Ho pensato, tuttavia, che dovrebbero esserci molti campioni ciascuno di almeno 30 elementi e, di conseguenza, molti “mezzi” di esempio e la loro distribuzione, non solo la distribuzione di un gruppo di campioni.
Per favore, aiutami gentilmente a capire correttamente il Teorema del limite centrale e inferire la media della popolazione, $ \ mu $ .
Commenti
- Qualcuno può spiegare cosa ' non è chiaro sulla domanda?
- @Glen_b I don ' per capire come " numero di dimensioni del campione " e " numero di campioni di disegno " è diverso.
- ' stai disegnando più campioni, ciascuno di dimensione N (la " campione di dimensione "); laltra quantità è il numero di campioni di questo tipo che disegni (" numero di campioni "). Immagino che potrebbe essere chiarito un po con una modifica.
- @Sycorax: I ' ho ripulito un po il fraseggio, ma oltre allOP non ha linglese come prima lingua (e alcuni fraintendimenti importanti, ma non insoliti) mi è sembrato chiaro
- @Roy I ' lho appena notato ' una domanda correlata qui: stats.stackexchange.com/questions/133931/…
Risposta
-
Una singola variabile casuale ha una distribuzione; una media campionaria da un campione casuale è una singola variabile casuale. Ovviamente puoi osservare la sua distribuzione solo guardando più campioni casuali (come più medie campionarie); poi, allaumentare del numero di tali campioni, il campione (empirico) cdf si avvicinerà alla funzione di distribuzione della popolazione. Lerrore standard del campione cdf sulla popolazione cdf diminuisce al crescere della radice quadrata della dimensione del campione (quadruplica la dimensione del campione e si dimezza lerrore standard).
In breve, il numero di campioni che prendi (ciascuno di dimensione $ n $ ) non ha alcun impatto su quanto è vicina la distribuzione delle medie del campione per essere normali … solo per quanto accuratamente puoi vederlo quando guardi una raccolta di campioni significa tutto da campioni della stessa dimensione.
Per vedere quanto sei vicino alla normalità a una certa dimensione di campione , potrebbe essere necessario un numero considerevole di mezzi di campionamento. Negli esperimenti di simulazione è comune esaminare migliaia di tali campioni in modo da avere un buon senso della forma distributiva.
Limmagine mostra istogrammi di 20, 300 e 100000 medie di campionamento per campioni di dimensione n = 30 da una distribuzione asimmetrica . Abbiamo un senso della forma ampia nel primo, un senso un po più chiaro nel secondo, ma abbiamo unidea abbastanza chiara della forma di questa distribuzione delle medie campionarie nel terzo, dove abbiamo un grande numero di realizzazioni della media campionaria.
In questo caso il campione significa che non ha una distribuzione quasi normale; n = 30 non sarebbe sufficiente per trattare questi mezzi come distribuiti approssimativamente normalmente (almeno non per scopi tipici).
Se vuoi avere unidea di come si comportano le code della distribuzione potresti aver bisogno di un numero considerevolmente maggiore di medie campione.
Tuttavia, quando hai a che fare con dati reali, generalmente ottieni solo un singolo campione. Devi basare la tua inferenza (indipendentemente dal fatto che ti affidi al CLT o meno) su quellunico campione.
-
Potresti essere stato fuorviato su ciò che dice il teorema del limite centrale.
Il effettivo teorema del limite centrale non dice nulla su n = 30 né su qualsiasi altra dimensione campionaria finita.
È invece un teorema sul comportamento di medie (o somme) standardizzate in il limite come n va allinfinito.
-
Sebbene sia vero che (in certe condizioni) le medie campionarie saranno distribuite approssimativamente normalmente (in un senso particolare di approssimazione) se il la dimensione del campione è abbastanza grande, ciò che costituisce “abbastanza grande” per uno scopo dipende da diversi fattori.Come si vede nel grafico sopra, lasimmetria può (per esempio) avere un impatto sostanziale sullapproccio alla normalità (se la popolazione è distorta, anche la distribuzione delle medie campionarie è distorta, ma lo è meno con laumentare della dimensione del campione).
Commenti
- Grazie per la tua fantastica risposta! Ho una domanda veloce al riguardo:
In short, the number of samples you take (each of size n) has no impact on how close the distribution of sample means is to being normal
. In base alla trama, significa che hai disegnato 20, 300, 1000000 campioni (e hai ottenuto lo stesso numero di medie di campioni) e ogni campione di dimensione è 30, e non importa quanti campioni hai disegnato (o quante volte hai disegnato campioni ), non ha alcun impatto sulla dist. di campione significa essere normalità? O forse capisco il tuo articolo in modo opposto …? - Perché ho appena simulato CLT di Python con dist uniforme. con 300 campioni (ciascuno di dimensione è 10), e sembra abbastanza normale, quindi sono un po confuso.
- La forma della distribuzione da cui attingi è decisamente importante; luniforme è un ' simpatico ' caso in cui n anche più piccolo di 10 è abbastanza vicino al normale per la maggior parte degli scopi (30 è un bar a meno che ' non ti metta bene in coda). Se hai eseguito 1000 campioni o 1 (ciascuno n = 10), la distribuzione delle medie è la stessa, a patto che ti attieni alla stessa distribuzione della popolazione. Se desideri emulare le mie immagini, prova una distribuzione gamma con forma 0,05 (il parametro di scala o velocità non ' ha importanza fintanto che non ' t cambialo); equivalentemente potresti provare un chi-quadrato con 0.1 d.f.
- Nota che i tuoi mezzi campione da ununiforme sono belli e dallaspetto normale ma (dimostrabilmente) non sono effettivamente normali; hanno una coda più chiara del normale (infatti hanno una portata finita). Questa non normalità potrebbe non avere molta importanza, a seconda di cosa ' stai facendo con loro.
- Wow, sì, gamma dist. mostra chiaramente ciò che hai spiegato sopra: il numero di mezzi campione non ha alcun impatto. Ho capito male il CLT, grazie. E ho anche scoperto che pensavo che la " stima del punto " fosse basata su CLT e non potesse ' t capire perché la stima puntuale utilizza solo una raccolta di campioni per dedurre i parametri della popolazione. Grazie per il tuo aiuto 🙂
Lascia un commento