Hvordan kan en t-test bruges til at sammenligne fordelingen mellem datagrupper?
On februar 10, 2021 by adminJeg forstår, at t-testen bruges til at teste forskellen i middel for to populationer, når populationerne har relativt ens afvigelser, enhederne er uafhængige, og de er normale (især med mindre stikprøvestørrelser).
Jeg undrede mig dog over, hvordan t-tests bruges til at se på forskellen i fordelingen af data mellem to grupper? Jeg spørger dette, fordi det grundlæggende er formuleringen, der bruges af det spørgsmål, jeg prøver at besvare. Det beder om at sammenligne, om fordelingen af genstanden af interesse er forskellig ved hjælp af en t-test.
Årsagen til, at jeg er forvirret, er, selvom jeg forstår, at middelværdien er et produkt af distributionen, og t-test kan blive stærkt påvirket af outliers, så t-testen kan give nogle oplysninger om to distributioner, der kunne være et tilfælde, hvor de to distributioner var meget ens, men effektstørrelsen var stor, simpelthen fordi de var centreret på forskellige måder, og der kunne være et tilfælde, hvor de to distributioner så funky ud med forskelle varianter og hvad, og det kunne føre til den samme t-stat. Så hvordan ville man være i stand til at fortælle noget fra en t-test?
Kommentarer
- Mens du skriver sammenligner t-tests midler. Det er et aspekt af en distribution. T-test sammenligner ikke afvigelser, skævhed, kurtose eller andre aspekter af distribution. Fortæl os, hvad det er, du prøver at sammenligne.
- Det ' et godt spørgsmål: mange mennesker, der ikke er så fortrolige med statistiske ideer, som de burde være (eller tror de er) bruger ofte sætninger som " brug en t-test til at teste [eller sammenligne] to distributioner " selvom dette kun sammenligner fordelinger (eller populationer) i den yderst begrænsede forstand at sammenligne deres midler. Således, når t-testen afviser hypotesen om lige midler, a fortiori fordelingen adskiller sig; men i mange tilfælde afviser t-testen ikke hypotesen (måske fordi midlerne virkelig er lige), selv når distributionerne ellers er meget forskellige.
- Med de antagelser, der er lavet for at udlede fordelingen af teststatistikken under nul er den sædvanlige t-test med samme varians faktisk en sammenligning af fordelinger, da den eneste måde, hvorpå distributionerne derefter kan variere, er ved hjælp af forskellen.
Svar
Den typiske opsætning for en to-prøve t-test er:
$$ X_1, \ prikker, X_n \ overskud {iid} \ sim N (\ mu_x, \ sigma ^ 2) $$
$$ Y_1, \ dots, Y_m \ overset {iid} \ sim N (\ mu_x + \ delta, \ sigma ^ 2) $$
$ $ H_0: \ delta = 0 $$
$$ H_a: \ delta \ ne0 $$
$$ \ text {(Eller gør det ensidet)) $$
Ved denne opsætning, hvis du finder ud af, at der ikke er wo forskellige fordelinger, den eneste måde, hvorpå det kan ske, er, hvis de adskiller sig i gennemsnit.
Så vil du måske sige, at afvigelserne er ulige eller i det mindste give mulighed for den mulighed, og derefter teste for gennemsnit forskelle alligevel. Det får “s til Welch” test … som stadig kun tester for forskelle i gennemsnit. Der kan være en forskel i varians, og det kan være mere interessant end en forskel i middel, men Welchs test burde ikke fange forskelle i varians.
En simulation i R bekræfter dette.
set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times
På $ 0,1 $ -niveau afviser vi ca. 10% af tiden og på $ 0,05 $ -niveau, vi afviser ca. 5% af tiden. Dette er med en temmelig stor stikprøvestørrelse på 1000, så selv subtile forskelle skal opdages, men de er ikke Så du har ret i, at t-testen ikke gør meget for dig, hvis du vil undersøge forskelle, der ikke bare er middelværdien.
Andre har dog også bemærket dette og der er tests for distributionsforskelle generelt. Den klassiske test for fuld distribution er Kolmogorov-Smirnnov (KS) testen. Den undersøger den største (teknisk supremum) lodrette afstand mellem to (empiriske) CDFer. Det er kendt, at KS-testen mangler magt til at afvise forskelle, der findes langt ud i halerne, men det er stadig en populær test. Nogle andre inkluderer Anderson-Darling og Kuiper. Nogle, der leger med simuleringer, indikerer for mig, at Kuiper er den bedste blandt de tre til at opdage haleforskelle, selvom jeg ikke har været særlig grundig i min undersøgelse af dette.
Hvad du vælger at udforske, afhænger af, hvad du vil vide. Måske er det god nok til at du ved, at midlerne er forskellige, i hvilket tilfælde t-test eller Welch-test kan være helt fine!
Svar
Delvist besvaret i kommentarer:
Som du skriver, sammenligner t-test midler. Det er et aspekt af en distribution. T-test sammenligner ikke afvigelser, skævhed, kurtose eller andre aspekter af distribution. Fortæl os, hvad det er, du prøver at sammenligne.
– Peter Flom
Det er et godt spørgsmål: mange mennesker, der ikke er så fortrolige med statistiske ideer som de burde være (eller tror de er), bruger ofte sætninger som “brug en t-test til at teste [eller sammenligne] to fordelinger” endda skønt dette kun sammenligner fordelinger (eller populationer) i den yderst begrænsede forstand at sammenligne deres middel. Når t-testen afviser hypotesen om lige midler, så fort fortæller fordelingen sig, men i mange tilfælde vil t-testen ikke afvise hypotesen (måske fordi midlerne virkelig er lige), selv når distributionerne ellers er meget forskellige.
– whuber
Med de antagelser, der foretages for at udlede fordelingen af teststatistikken under null , er den sædvanlige t-test med samme varians faktisk en sammenligning af distributioner, da onl y måde, hvorpå distributionerne derefter kan være forskellige, er på forskellige måder.
– Glen_b
Skriv et svar