Parret mot uparret t-test
On januar 31, 2021 by adminAnta at jeg har 20 mus. Jeg parer musene på en eller annen måte, slik at jeg får 10 par. I forbindelse med dette spørsmålet kan det være en tilfeldig sammenkobling, ELLER det kan være en fornuftig sammenkobling, som å prøve å parre mus fra samme kull, av samme kjønn, med samme vekt, ELLER det kan være en bevisst dum sammenkobling som prøver å pare mus med vekter så ulikt som de muligens kan være. Jeg bruker da tilfeldige tall for å tilordne en mus i hvert par til kontrollgruppen og den andre musen til den gruppen som skal behandles. Jeg gjør nå eksperimentet, bare behandler musene som skal behandles, men ellers tar jeg ikke hensyn til arrangementene som er gjort.
Når man kommer til å analysere resultatene, kan man enten bruke uparret t- testing eller paret t-testing. På hvilken måte, hvis noen, vil svarene være forskjellige? (Jeg er i utgangspunktet interessert i systematiske forskjeller i statistiske parametere som må estimeres.)
Grunnen til at jeg spør dette er at et papir jeg nylig var involvert i ble kritisert av en biolog for å bruke en sammenkoblet t-test snarere enn en uparret t-test. Selvfølgelig, i selve eksperimentet, var situasjonen ikke så ekstrem som situasjonen jeg har skissert, og det var, etter min mening, gode grunner til parring. Men biologen var ikke enig.
Det ser ut til at det ikke er mulig å forbedre den statistiske signifikansen (redusere p-verdien) feilaktig, under de omstendighetene jeg tegnet, ved å bruke en sammenkoblet t-test. , snarere enn en uparret test, selv om det er upassende å parre. Det kan imidlertid forverre den statistiske signifikansen hvis mus var dårlig sammenkoblet. Er dette riktig?
Svar
Jeg er enig i poengene som både Frank og Peter kommer med, men jeg tror det er en enkel formel som kommer til kjernen av problemet, og det kan være verdt for OP å vurdere.
La $ X $ og $ Y $ være to tilfeldige variabler hvis sammenheng ikke er kjent.
La $ Z = XY $
Hva er variansen av $ Z $?
Her er den enkle formelen: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ Hva om $ \ text {Cov} (X, Y) > 0 $ (dvs. $ X $ og $ Y $ er positivt korrelert)?
Deretter $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. I dette tilfellet, hvis sammenkoblingen er laget på grunn av positiv korrelasjon, for eksempel når du har å gjøre med samme emne før og etter intervensjon, hjelper sammenkobling fordi den uavhengige sammenkoblede forskjellen har lavere avvik enn variansen du får for den uparede saken. Metoden reduserte variansen. Testen er kraftigere. Dette kan vises dramatisk med sykliske data. Jeg så et eksempel i en bok der de ønsket å se om temperaturen i Washington DC er høyere enn i New York City. Så de tok gjennomsnittlig månedstemperatur i begge byene i si to år. Selvfølgelig er det en stor forskjell i løpet av året på grunn av de fire sesongene. Denne variasjonen er for stor til at en uparret t-test kan oppdage en forskjell. Imidlertid eliminerer sammenkobling basert på samme måned samme år denne sesongmessige effekten, og den sammenkoblede $ t $ -testen viste tydelig at gjennomsnittstemperaturen i DC pleide å være høyere enn i New York. $ X_i $ (temperatur i NY i måned $ A $) og $ Y_i $ (temperatur i DC i måned $ A $) er positivt korrelert fordi årstidene er de samme i NY og DC, og byene er nærme nok til at de ofte oppleve de samme værsystemene som påvirker temperaturen. DC kan være litt varmere fordi den er lenger sør.
Merk at jo større kovariansen eller korrelasjonen er, desto større er reduksjonen i variansen.
Anta at $ \ text {Cov} (X, Y) $ er negativ.
Deretter $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Nå vil sammenkoblingen være verre enn ikke å parre fordi avviket faktisk økes!
Når $ X $ og $ Y $ ikke er korrelert, spiller det sannsynligvis ikke rolle hvilken metode du bruker . Peters tilfeldige sammenkoblingssak er som denne situasjonen.
Kommentarer
- Michael, fordi » < » og » > » har spesielle betydninger på websider, for å unngå at store deler av teksten din bare forsvinner fra visningen, er det viktig at du bruk $ \ TeX $ markup for dem i ligninger (kodene er » \ lt » og » \ gt
). Jeg markerte de to ligningene som forårsaket dette problemet for deg.I fremtiden kan du lese hva du legger ut umiddelbart etter at du har lagt det ut for å forsikre deg om at folk ser det du trodde de ville se, og så er du velkommen til å flagge innlegget ditt for moderatoroppmerksomhet hvis det er noe problem med markeringen.
Svar
I stedet for paring er det sannsynligvis bedre å forstå den underliggende datamodellen. Hvis sammenkobling gjøres for å håndtere ukontrollert heterogenitet, er det vanligvis tilfelle (unntatt i tvillingstudier) at sammenkoblingen bare delvis kontrollerer denne variabilitetskilden og multippel regresjon vil gjøre det bedre. Dette skyldes at samsvar på kontinuerlige variabler ofte resulterer i gjenværende variabilitet på grunn av ikke å kunne gjøre nøyaktig samsvar med slike variabler.
Kommentarer
- Hvis vi skulle alle gjøre regresjon, hvorfor understreker bøker om eksperimentell design, som David Cox ‘ sin bok, viktigheten av sammenkobling eller gruppering i biologiske eksperimenter? Ved sammenkobling unngås den skjulte antagelsen om lineær avhengighet medført i regresjon. Men kanskje det er andre grunner: hvem som helst ??
Svar
De to testene (paret og uparret) spør forskjellige spørsmål slik at de kan få forskjellige svar. Korrekt sammenkobling er nesten alltid kraftigere enn ikke paret – det er egentlig poenget med sammenkobling. Så siden du sier at sammenkoblingen er riktig, er det sannsynlig at p-verdien for den sammenkoblede testen er lavere enn for de samme dataene som ikke er paret. Du kan selvfølgelig gjøre begge deler og se selv.
Derfor er svaret på dilemmaet ditt materielt, ikke statistisk. Er sammenkoblingen din riktig?
Kan du få mer signifikant resultat fra tilfeldig parring enn fra en uparret test? La oss se:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Ja du kan, selv om her er forskjellen veldig liten, den parrede hadde en lavere s. Jeg kjørte den koden flere ganger. Ikke overraskende, noen ganger er en p lavere, noen ganger den andre, men forskjellen var liten i alle tilfeller. Jeg er imidlertid sikker på at i noen situasjoner kan forskjellen i p-verdier være stor.
Kommentarer
- Takk for svaret, men spørsmålet mitt stilte for systematiske forskjeller. Åpenbart, i et langt løp av x ‘ s og y ‘ s, ser x og y av og til ut som om de er veldig godt sammenkoblet , og noen ganger som om de bevisst har blitt dårlig sammenkoblet. Sikkert er det ‘ et statistisk spørsmål om fordelingen av p-verdiene ved å velge x og y tilfeldig er den samme på de to testene. Jeg antar at det ikke skal være ‘ t for vanskelig for noen som kan mer teoretisk statistikk enn meg å faktisk beregne de to teoretiske fordelingen av p-verdier. Jeg antar at de er de samme.
- I det faktiske tilfellet jeg var involvert i, var p-verdien for ikke-paret rundt .04 og for paret .001. I følge den kritiske biologen bør vi sitere .04. Ifølge meg indikerer forbedringen av p-verdi sterkt at sammenkoblingen vår var gyldig. Jeg hevder det er et objektivt spørsmål i statistikken her, med et objektivt svar, og at det ‘ ikke bare er et spørsmål om god biologisk skjønn med hensyn til gyldigheten av den spesifikke sammenkoblingen – – sistnevnte ser ut til å være oppfatningen til Peter Flom og den kritiske biologen.
- Jeg tror statistikken forteller historien.Begge resultatene skal avsløres, men så lenge dataene er korrekte og korrelasjonen kan forklares, er den sammenkoblede testen mer nøyaktig fordi den tar hensyn til korrelasjonen.
Svar
Jeg forstår nå mye bedre hva som bekymret meg for parrede versus uparede t-tester og tilhørende p-verdier. Å finne ut har vært en interessant reise, og det har vært mange overraskelser underveis. En overraskelse er resultatet av en undersøkelse av Michaels bidrag. Dette er uoppnåelig når det gjelder praktiske råd. Dessuten sier han det jeg tror praktisk talt alle statistikere mener, og han har flere stemmer for å støtte dette. Imidlertid, som et stykke teori, det er ikke bokstavelig talt riktig. Jeg oppdaget dette ved å utarbeide formlene for p-verdiene, og deretter tenke nøye hvordan jeg skulle bruke formlene til å føre til moteksempler. Jeg er matematiker ved opplæring, og moteksemplet er et «matematikers moteksempel». Det er ikke noe du vil komme over i praktisk statistikk, men det var den typen ting jeg prøvde å finne ut om da jeg spurte originalen min spørsmål.
Her er R-koden som gir moteksemplet:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Legg merke til følgende funksjoner: X og Y er to 10-tupler hvis forskjell er enorm og nesten konstant. For mange signifikante tall er korrelasjonen 1.000 …. p-verdien for den uparede testen er rundt 10 ^ 40 ganger mindre enn p-verdien for den parede testen. Så dette strider mot Michaels beretning, forutsatt at man leser kontoen hans bokstavelig, i matematisk stil. Her slutter den delen av svaret mitt som er relatert til Michaels svar.
Her er tankene som Peters svar. Under diskusjonen av det opprinnelige spørsmålet mitt, antok jeg i en kommentar at to spesielle fordelinger av p-verdier som høres forskjellige, faktisk er de samme. Jeg kan nå bevise dette. Det som er viktigere er at beviset avslører den grunnleggende naturen til en p-verdi, så grunnleggende at ingen tekst (som jeg har kommet over) gidder å forklare. Kanskje vet alle profesjonelle statistikere hemmeligheten, men for meg virket definisjonen av p-verdi alltid merkelig og kunstig. Før jeg gir bort statistikkens hemmelighet, la meg spesifisere spørsmålet.
La $ n > 1 $ og velg tilfeldig og uavhengig to tilfeldige $ n $ – fordobler fra noen normalfordeling. Det er to måter å få en p-verdi fra dette valget. Den ene er å bruke en uparret t-test, og den andre er å bruke en parret t-test. Min antagelse var at fordelingen av p -verdier man får er det samme i de to tilfellene. Da jeg først begynte å tenke på det, bestemte jeg meg for at denne antagelsen hadde vært dumdristig og var falsk: den uparede testen er knyttet til en t-statistikk på $ 2 (n-1 ) $ frihetsgrader, og den sammenkoblede testen til en t-statistikk på $ n-1 $ frihetsgrader. Disse to fordelingene er forskjellige, så hvordan i all verden kan de tilhørende fordelingen av p-verdiene være de samme? Bare etter mye videre tenkte jeg at denne åpenbare avskjedigelsen av antagelsen min var for lettvint.
Svaret kommer fra følgende betraktninger. Anta $ f: (0, \ infty) \ til (0, \ infty) $ er en kontinuerlig pdf (det vil si at integralen har verdi en). En endring av koordinatene konverterer den tilhørende fordelingen til den jevne fordelingen på $ [0,1] $. Formelen er $$ p = \ int_t ^ \ infty f (s) \, ds $$ og så mye er forklart i mange tekster. Det tekstene ikke klarer å påpeke i sammenheng med p-verdier er at dette er nøyaktig formelen som gir p-verdien fra t-statistikken, når $ f $ er pdf for t -fordeling. (Jeg prøver å holde diskusjonen så enkel jeg kan, fordi den virkelig er enkel. En mer fullstendig diskusjon vil behandle ensidige og tosidige t-tester litt annerledes, faktorer på 2 kan oppstå, og t-statistikken kan ligge i $ (- \ infty, \ infty) $ i stedet for i $ [0, \ infty) $. Jeg utelater alt det rotet.)
Nøyaktig den samme diskusjonen gjelder når du finner p-verdien assosiert med noen av de andre standardfordelingene i statistikken. Igjen, hvis dataene er tilfeldig fordelt (denne gangen i henhold til en annen distribusjon), vil de resulterende p-verdiene fordeles jevnt i $ [0,1] $.
Hvordan gjelder dette for våre parede og uparede t-tester? Poenget er i den parede t-testen, med prøver valgt uavhengig og tilfeldig, som i koden min ovenfor, følger verdien av t faktisk en t-fordeling (med $ n-1 $ frihetsgrader). Så p-verdiene som følger av å replikere valget av X og Y mange ganger følger den jevne fordelingen på $ [0,1] $. Det samme er tr ue for den uparede t-testen, men denne gangen har t-fordelingen $ 2 (n-1) $ frihetsgrader. Likevel har p-verdiene som resulterer også en jevn fordeling på $ [0,1] $, av det generelle argumentet jeg ga ovenfor.Hvis Peters kode ovenfor brukes for å bestemme p-verdier, får vi to forskjellige metoder for å tegne en tilfeldig prøve fra den jevne fordelingen på $ [0,1] $. De to svarene er imidlertid ikke uavhengige.
Kommentarer
- Jeg tror ikke ‘ t tror at p-verdien har noen mystiske seketer. Noen mennesker har en vanskelig tid med det. Det er sannsynligheten for å observere en verdi som ekstern eller mer ekstrem enn det som faktisk ble observert når nullhypotesen er SANN. Jeg tror du hadde det riktig i en av formlene dine. Jeg tror du uttalte at p- verdiene er jevnt fordelt. Ja, jeg er enig i det når nullhypotesen er sant. Husk at null-hypotesen med t-testen din kanskje ikke stemmer. Da er ikke p-verdien ensartet. Den bør konsentreres nærmere 0.
- For det andre snakker vi om to forskjellige teststatistikker. Den ene er basert på sammenkobling og en i ikke i eksemplet ditt. Enten jeg nevnte det i svaret mitt eller ikke den uparede t-testen har en sentral t-fordeling med 2n-2 frihetsgrader, mens den tilsvarende t-fordelingen for den parede t-testen har n-1 frihetsgrader. Så den med større antall frihetsgrader er nærmere standard normalfordeling enn den andre. Spiller det noen rolle når du bruker disse testene på ekte data? Nei! Ikke når n er rimelig stor.
- Som en sidemerking krever en begrensning av den sammenkoblede testen like utvalgstørrelse som du burde ha hvis alle data kan sammenkobles. Men den uparede testen er gyldig med ulik utvalgstørrelse. Så generelt har den uparede testen n + m-2 frihetsgrader.
- Svaret ditt er langt og abstrakt, og jeg prøvde å vasse gjennom det, men jeg gjorde ikke ‘ t forstår moteksemplet. Jeg ser bare ikke ‘ hvor du tar nullhypotesen og de virkelige dataene i betraktning. Den observerte p-verdien er integralen av den passende t-fordelingen for teststatistikken gitt dataene. Du sammenligner disse tallene for de to t-distribusjonene og det samme vanlige datasettet. Hvis du forutsetter de observerte dataene, spiller disse ensartede distribusjonene ingen rolle. Jeg beklager, men jeg ser ikke ‘ at svaret ditt virkelig svarer på spørsmålet ditt.
- Michael: bare konsentrer deg om R-koden jeg ga. Det tar bare et sekund å løpe. Nullhypotesen er at X og Y kommer fra samme normalfordeling, noe som selvfølgelig er veldig falskt i mitt tilfelle. I mitt eksempel Cov (X, Y) > 0 og likevel gir den uparede testen mer betydning enn den parrede testen.
Svar
Jeg vil tilby et annet perspektiv. Ofte blir sammenkobling redusert skjevhet. Anta at du er interessert i om eksponering E er en risikofaktor for et kontinuerlig utfall Y. For hvert E + -emne får du et alders- og kjønnstilpasset emne som er E-. Nå kan vi enten gjøre en paret t-test eller en uparret t-test. Jeg tror vi bør redegjøre for samsvar eksplisitt og gjennomføre en sammenkoblet t-test. Det er mer prinsipielt ved at det tar hensyn til designet. Hvorvidt det skal tas hensyn til samsvar i analysen er et spørsmål om bias-varians avveining. Regnskap for samsvar i analysen gir mer beskyttelse mot skjevhet, men kan øke variansen. Å gjøre en uparret t-test kan være mer effektivt, men det gir ingen beskyttelse mot skjevhet.
Legg igjen en kommentar