Hvordan kan en t-test brukes til å sammenligne fordelingen mellom datagrupper?
On februar 10, 2021 by adminJeg forstår at t-testen brukes til å teste forskjellen i middel for to populasjoner når populasjonene har relativt like avvik, enhetene er uavhengige, og de er normale (spesielt med mindre prøvestørrelser).
Imidlertid lurte jeg på hvordan t-tester brukes til å se på forskjellen i fordelingen av data mellom to grupper? Jeg spør dette fordi det i utgangspunktet er formuleringen som brukes av spørsmålet jeg prøver å svare på. Det blir bedt om å sammenligne om fordelingen av varen av interesse er forskjellig ved hjelp av en t-test.
Årsaken til at jeg er forvirret er, selv om jeg forstår middelverdien, er et produkt av distribusjonen, og t-tester kan bli sterkt påvirket av outliers, så t-testen kan gi litt informasjon om to distribusjoner, det kunne være et tilfelle der de to distribusjonene var veldig like, men effektstørrelsen var stor ganske enkelt fordi de var sentrert på forskjellige måter, og det kunne være et tilfelle der de to distribusjonene så funky ut med forskjellige avvik og hva som helst, og det kan føre til den samme t-stat. Så hvordan kan man kunne fortelle noe fra en t-test?
Kommentarer
- Mens du skriver sammenligner t-tester middel. Det er ett aspekt av en distribusjon. T-tester sammenligner ikke avvik, skjevhet, kurtose eller andre aspekter ved distribusjon. Gi oss beskjed om hva det er du prøver å sammenligne.
- Det ' et godt spørsmål: mange mennesker som ikke er så fortrolige med statistiske ideer som de burde være (eller tror de er) bruker ofte setninger som " bruk en t-test for å teste [eller sammenligne] to fordelinger " selv om dette sammenligner fordelinger (eller populasjoner) bare i den ekstremt begrensede betydning å sammenligne deres middel. Dermed, når t-testen avviser hypotesen om like midler, a fortiori fordelingen forskjellig; men i mange tilfeller vil ikke t-testen avvise hypotesen (kanskje fordi midlene er virkelig like) selv når distribusjonene ellers er veldig forskjellige.
- Med forutsetningene som gjøres for å utlede fordelingen av teststatistikken under null, er den vanlige t-testen med lik variasjon faktisk en sammenligning av distribusjoner, siden den eneste måten distribusjonene da kan variere på er ved å være annerledes.
Svar
Det typiske oppsettet for en t-test med to eksempler er:
$$ X_1, \ prikker, X_n \ overskudd {iid} \ sim N (\ mu_x, \ sigma ^ 2) $$
$$ Y_1, \ prikker, Y_m \ overskudd {iid} \ sim N (\ mu_x + \ delta, \ sigma ^ 2) $$
$ $ H_0: \ delta = 0 $$
$$ H_a: \ delta \ ne0 $$
$$ \ text {(Eller gjør det ensidig.)} $$
Ved dette oppsettet, hvis du finner ut at det ikke er wo forskjellige distribusjoner, er den eneste måten det kan skje på hvis de er forskjellige i gjennomsnitt.
Så vil du kanskje si at avvikene er ulik, eller i det minste tillate den muligheten, og deretter teste for gjennomsnitt forskjeller uansett. Som får «s til Welch» test … som fremdeles bare tester for forskjeller i gjennomsnitt. Det kan være en forskjell i varians, og det kan være mer interessant enn en forskjell i middel, men Welchs test burde ikke fange forskjeller i varians.
En simulering i R bekrefter dette.
set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times
På $ 0.1 $ -nivå avviser vi omtrent 10% av tiden, og på $ 0,05 $ -nivå, vi avviser omtrent 5% av tiden. Dette er med en ganske stor utvalgsstørrelse på 1000, så selv subtile forskjeller bør oppdages, men de er ikke . Så du har rett i at t-testen ikke gjør mye for deg hvis du vil undersøke forskjeller som ikke bare er gjennomsnittet.
Andre har imidlertid lagt merke til dette også og der er tester for distribusjonsforskjeller generelt. Den klassiske full distribusjonstesten er Kolmogorov-Smirnnov (KS) testen. Den undersøker den største (teknisk supremum) vertikale avstanden mellom to (empiriske) CDFer. Det er kjent at KS-testen mangler kraft til å avvise forskjeller som er funnet i halene, men det er fortsatt en populær test. Noen andre inkluderer Anderson-Darling og Kuiper. Noen som leker med simuleringer indikerer for meg at Kuiper er den beste blant de tre til å oppdage haleforskjeller, selv om jeg ikke har vært spesielt grundig i undersøkelsen av dette.
Hva du velger å utforske, vil avhenge av hva du vil vite. Kanskje det er bra nok til at du vet at midlene er forskjellige, i så fall kan t-testing eller Welch-testing være helt greit!
Svar
Delvis besvart i kommentarer:
Når du skriver, sammenligner t-tester middel. Det er ett aspekt av en distribusjon. T-tester sammenligner ikke avvik, skjevhet, kurtose eller andre aspekter ved distribusjon. Fortell oss hva du prøver å sammenligne.
– Peter Flom
Det er et godt spørsmål: mange mennesker som ikke er så fortrolige med statistiske ideer som de burde være (eller tror de er), bruker ofte setninger som «bruk en t-test for å teste [eller sammenligne] to distribusjoner» til og med selv om dette sammenligner fordelinger (eller populasjoner) bare i den ekstremt begrensede forstanden av å sammenligne deres middel. Når t-testen avviser hypotesen om like midler, vil a fortiori fordelingen variere, men i mange tilfeller vil ikke t-testen ikke avvise hypotesen (kanskje fordi midlene er virkelig like) selv når distribusjonene ellers er veldig forskjellige.
– whuber
Med forutsetningene som gjøres for å utlede fordelingen av teststatistikken under null , er den vanlige likvarianse t-testen faktisk en sammenligning av distribusjoner, siden onl y måten distribusjonene da kan være forskjellige på, er ved å være annerledes.
– Glen_b
Legg igjen en kommentar