Come può essere utilizzato un test t per confrontare le distribuzioni tra gruppi di dati?
Su Febbraio 10, 2021 da adminCapisco che il test t viene utilizzato per testare la differenza di medie per due popolazioni quando le popolazioni hanno varianze relativamente simili, le unità sono indipendenti e sono normali (specialmente con campioni di dimensioni inferiori).
Tuttavia, mi chiedevo come vengono utilizzati i test t per osservare la differenza nella distribuzione dei dati tra due gruppi? Lo chiedo perché è fondamentalmente la frase usata dalla domanda a cui sto cercando di rispondere. Chiede di confrontare se le distribuzioni dellelemento di interesse sono diverse utilizzando un t-test.
Il motivo per cui sono confuso è che, anche se capisco che la media è un prodotto della distribuzione e t-test potrebbe essere fortemente influenzato da valori anomali, quindi il t-test potrebbe fornire alcune informazioni su due distribuzioni, potrebbe esserci un caso in cui le due distribuzioni erano molto simili ma la dimensione delleffetto era grande semplicemente perché erano centrate su mezzi diversi, e potrebbe esserci un caso in cui le due distribuzioni apparivano funky con variazioni di differenza e quantaltro, e questo potrebbe lo stesso t-stat. Quindi, come si fa a distinguere qualcosa da un test t?
Commenti
- Mentre scrivi, i test t confrontano le medie. Questo è un aspetto di una distribuzione. I test T non confrontano varianze, asimmetria, curtosi o altri aspetti della distribuzione. Facci sapere cosa stai cercando di confrontare.
- È ' una buona domanda: molte persone che non hanno familiarità con le idee statistiche come dovrebbero essere (o pensare che lo siano) spesso utilizzare frasi come " utilizzare un test t per testare [o confrontare] due distribuzioni " anche se questo confronta le distribuzioni (o le popolazioni) solo nel senso estremamente limitato di confrontare le loro medie. Quindi, quando il test t rifiuta lipotesi di medie uguali, a fortiori le distribuzioni differiscono; ma in molti casi il test t non rifiuterà lipotesi (forse perché le medie sono veramente uguali) anche quando le distribuzioni sono altrimenti molto diverse.
- Con le ipotesi che vengono fatte per derivare la distribuzione della statistica del test sotto il valore nullo, il solito t-test a varianza uguale è effettivamente un confronto di distribuzioni, poiché lunico modo in cui le distribuzioni possono differire è nel senso che sono diverse.
Risposta
Limpostazione tipica per un test t a due campioni è:
$$ X_1, \ dots, X_n \ overset {iid} \ sim N (\ mu_x, \ sigma ^ 2) $$
$$ Y_1, \ dots, Y_m \ overset {iid} \ sim N (\ mu_x + \ delta, \ sigma ^ 2) $$
$ $ H_0: \ delta = 0 $$
$$ H_a: \ delta \ ne0 $$
$$ \ text {(Oppure fallo unilaterale.)} $$
Con questa configurazione, se trovi che ci sono t wo diverse distribuzioni, lunico modo perché ciò avvenga è se differiscono nella media.
Quindi potresti voler dire che le varianze sono disuguali, o almeno consentire tale possibilità, e quindi verificare la media differenze comunque. Questo porta “s al test di Welch” … che ancora verifica solo le differenze di media. Potrebbe esserci una differenza nella varianza, e potrebbe essere più interessante di una differenza nelle medie, ma il test di Welch non dovrebbe rilevare differenze nella varianza.
Una simulazione in R lo conferma.
set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times
Al livello $ 0.1 $ , rifiutiamo circa il 10% delle volte e al $ 0,05 $ -level, rifiutiamo circa il 5% delle volte. Questo è con una dimensione del campione abbastanza grande di 1000, quindi anche le differenze sottili dovrebbero essere scoperte, ma non lo sono . Quindi hai ragione che il test t non fa molto per te se vuoi esaminare differenze che non sono solo la media.
Tuttavia, anche altri hanno notato questo, e ci sono test per le differenze di distribuzione in generale. Il classico test di distribuzione completa è il test di Kolmogorov-Smirnnov (KS). Esamina la distanza verticale più grande (tecnicamente supremum) tra due CDF (empiriche). Il test KS è noto per avere una mancanza di potere di respingere le differenze che si trovano fuori dalla coda, ma è ancora un test popolare. Alcuni altri includono Anderson-Darling e Kuiper. Alcuni giocare con le simulazioni mi indica che Kuiper è il migliore dei tre nel rilevare le differenze di coda, anche se non sono stato particolarmente approfondito nella mia indagine su questo.
Ciò che scegli di esplorare dipenderà da ciò che vuoi sapere. Forse è “s abbastanza buono per farti sapere che i mezzi sono diversi, nel qual caso, t-test o Welch-test potrebbero andare perfettamente bene!
Risposta
Risposta parziale nei commenti:
Mentre scrivi, i test t confrontano le medie. Questo è un aspetto di una distribuzione. I test T non confrontano varianze, asimmetria, curtosi o altri aspetti della distribuzione. Facci sapere cosa stai cercando di confrontare.
– Peter Flom
È “una buona domanda: molte persone che non hanno familiarità con le idee statistiche come dovrebbero (o pensano di esserlo) spesso usano frasi come” usa un test t per testare [o confrontare] due distribuzioni “anche anche se questo confronta le distribuzioni (o le popolazioni) solo nel senso estremamente limitato di confrontare le loro medie. Pertanto, quando il test t rifiuta lipotesi di medie uguali, a fortiori le distribuzioni differiscono; ma in molti casi il test t non rifiuterà lipotesi (forse perché le medie sono veramente uguali) anche quando le distribuzioni sono altrimenti molto diverse.
– whuber
Con le ipotesi che sono fatte per derivare la distribuzione della statistica del test sotto il valore nullo , il solito test t a varianza uguale è effettivamente un confronto di distribuzioni, dal momento che lonl Il modo in cui le distribuzioni possono quindi differire è perché sono diverse.
– Glen_b
Lascia un commento