Parat mot oparat t-test
On januari 31, 2021 by adminAntag att jag har 20 möss. Jag parar ihop mössen på något sätt så att jag får 10 par. För syftet med denna fråga kan det vara en slumpmässig parning, ELLER det kan vara en förnuftig parning, som att försöka para möss från samma kull, av samma kön, med samma vikt, ELLER det kan vara en medvetet dum parning som försöker para ihop möss med vikter så ojämna som de skulle kunna vara. Jag använder sedan slumptal för att tilldela en mus i varje par till kontrollgruppen och den andra musen till den grupp som ska behandlas. Jag gör nu experimentet, behandlar bara mössen som ska behandlas, men annars tar jag inte hänsyn till de arrangemang som just gjorts.
När man kommer att analysera resultaten kan man antingen använda oparad t- testning eller ihopkopplad t-testning. På vilket sätt, om något, kommer svaren att skilja sig? (Jag är i princip intresserad av systematiska skillnader mellan statistiska parametrar som behöver uppskattas.)
Anledningen till att jag frågar detta är att ett papper som jag nyligen var inblandat i kritiserades av en biolog för att använda ett parat t-test snarare än ett oparat t-test. Självklart var situationen i själva experimentet inte lika extrem som den situation jag har skissat, och det fanns, enligt min mening, goda skäl för parning. Men biologen var inte överens.
Det förefaller mig som om det inte är möjligt att på ett felaktigt sätt förbättra den statistiska signifikansen (minska p-värdet), under de omständigheter som jag skissade, med hjälp av ett parat t-test , snarare än ett oparat test, även om det är olämpligt att para ihop. Det kan dock förvärra den statistiska signifikansen om möss var dåligt parade. Stämmer det här?
Svar
Jag håller med om de punkter som både Frank och Peter gör men jag tror att det finns en enkel formel som kommer till kärnan i frågan och kan vara värt att OP överväga.
Låt $ X $ och $ Y $ vara två slumpmässiga variabler vars korrelation är okänd.
Låt $ Z = XY $
Vad är variansen på $ Z $?
Här är den enkla formeln: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ Vad händer om $ \ text {Cov} (X, Y) > 0 $ (dvs. $ X $ och $ Y $ är positivt korrelerade)?
Därefter $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. I det här fallet, om parningen görs på grund av positiv korrelation, till exempel när du har att göra med samma ämne före och efter ingripande, hjälper parning eftersom den oberoende parade skillnaden har lägre varians än den varians du får för det oparade fallet. Metoden minskade variansen. Testet är kraftfullare. Detta kan dramatiskt visas med cykliska data. Jag såg ett exempel i en bok där de ville se om temperaturen i Washington DC är högre än i New York City. Så de tog den genomsnittliga månatliga temperaturen i båda städerna i två år. Naturligtvis är det en enorm skillnad under året på grund av de fyra säsongerna. Denna variation är för stor för att ett oparad t-test kan upptäcka en skillnad. Parning baserad på samma månad samma år eliminerar dock denna säsongseffekt och det parade $ t $ -testet visade tydligt att medeltemperaturen i DC tenderade att vara högre än i New York. $ X_i $ (temperatur vid NY i månad $ A $) och $ Y_i $ (temperatur i DC under månad $ A $) är positivt korrelerade eftersom årstiderna är desamma i NY och DC och städerna är tillräckligt nära att de ofta uppleva samma vädersystem som påverkar temperaturen. DC kan vara lite varmare eftersom det är längre söderut.
Observera att ju större kovariansen eller korrelationen är desto större är minskningen i variansen.
Antag nu att $ \ text {Cov} (X, Y) $ är negativ.
Sedan $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Nu kommer parning att bli sämre än att inte para ihop eftersom variansen faktiskt ökas!
När $ X $ och $ Y $ inte är korrelerade spelar det förmodligen ingen roll vilken metod du använder . Peters slumpmässiga parningsfall är som den här situationen.
Kommentarer
- Michael, eftersom ” < ” och ” > ” har särskilda betydelser på webbsidor, för att undvika att stora delar av din text helt enkelt försvinner från dig är det viktigt att du använd $ \ TeX $-markering för dem i ekvationer (koderna är ” \ lt ” och ” \ gt ” respektive). Jag markerade de två ekvationerna som orsakade detta problem för dig.I framtiden ska du läsa vad du lägger upp omedelbart efter att du har lagt upp det för att se till att människor ser vad du trodde de skulle se, och flagga gärna ditt inlägg för moderatoruppmärksamhet om det finns några problem med markeringen.
- @whuber Tack. Jag kontrollerar vanligtvis under och efter inlägg eftersom jag tycker att jag förstör ekvationer mycket, särskilt när jag prenumererar. Att sakna den här är ovanligt och hände förmodligen för att det var ett långt inlägg och jag slarvigt bara vidare till något annat som jag ville eller behövde göra. Ibland distraherar ett telefonsamtal mig och jag glömmer att kolla. När det gäller speciella symboler som får texten att försvinna i ett inlägg har jag observerat det. Jag tror att en enkel lösning är att se till att du lämnar ett utrymme efter symbolen. Jag tror att det har fungerat för mig tidigare.
- +1, riktigt på plats. Observera att om $ X $ & $ Y $ är helt okorrelerade i ditt exempel , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick För fallet när Cov (X, Y) < 0 har jag en fråga: Om mitt mål är att dra slutsatsen E [X] -E [Y] från mitt experiment, kan jag trots att jag genomförde en ihopkopplad studie, när jag analyserar mina data, fortfarande LÅTTA att mitt experimentresultat är en förverkligande av UNPAIRED randomiserad experimentera. Kan jag göra detta? För om du verkligen gjorde ett oparad slumpmässigt experiment kan du bokstavligen få samma resultat. Då kan jag bara ta genomsnittet för varje grupp (ignorera parning) och ta skillnaden mellan de två gruppernas medelvärden. Detta är en opartisk uppskattning av E [Z]. För varians av min uppskattare använder jag bara …
- @MichaelChernick provvariansen för grupp X och grupp Y och summera dem
Svar
I stället för att para ihop är det troligen bättre att förstå den underliggande datamodellen. Om parning görs för att hantera okontrollerad heterogenitet är det vanligtvis fallet (förutom i tvillingstudier) att parningen endast delvis styr denna källa till variation och multipel regression skulle göra bättre. Detta beror på att matchning på kontinuerliga variabler ofta resulterar i kvarstående variationer på grund av att man inte kan göra exakt matchning på sådana variabler.
Kommentarer
- Om vi borde alla göra regression, varför betonar böcker om experimentell design, som David Cox ’ s bok, vikten av parning eller gruppering i biologiska experiment? Parning undviker det dolda antagandet om linjärt beroende som följer av regression. Men kanske finns det andra skäl: någon ??
Svar
De två testerna (parade och oparade) frågar olika frågor så att de kan få olika svar. Korrekt ihopparning är nästan alltid mer kraftfull än oparad – det är egentligen poängen för ihopparningen. Eftersom du säger att ihopparningen är korrekt är det troligt att p-värdet för ditt parade test är lägre än för samma oparade data. Du kan naturligtvis göra båda och se själv.
Därför är svaret på ditt dilemma innehållsmässigt, inte statistiskt. Är din parning rätt?
Kan du få mer signifikant resultat från slumpmässig ihopparning än från ett oparad test? Låt oss se:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Ja du kan, även om här är skillnaden väldigt liten, den parade en lägre s. Jag sprang den koden flera gånger. Inte överraskande, ibland är en p lägre, ibland den andra, men skillnaden var liten i alla fall. Jag är dock säker på att skillnaden i p-värden i vissa situationer kan vara stor.
Kommentarer
- Tack för svaret, men min fråga ställdes för systematiska skillnader. Uppenbarligen ser det på lång sikt av x ’ s och y ’ s, x och y ibland ut som om de är väldigt välparade och ibland som om de medvetet har parats ihop. Visst är det ’ en statistisk fråga om huruvida fördelningen av p-värden är densamma vid de två testerna vid val av x och y slumpmässigt. Jag antar att det inte borde vara ’ t för svårt för någon som kan mer teoretisk statistik än jag faktiskt beräknar de två teoretiska fördelningarna av p-värden. Min gissning är att de är desamma.
- I själva verket var jag inblandad i, var p-värdet för oparad ungefär 0,04 och för parat .001. Enligt den kritiska biologen borde vi citera .04. Enligt mig indikerar förbättringen av p-värde starkt att vår parning var giltig. Jag hävdar att det finns en objektiv fråga i statistiken här, med ett objektivt svar, och att det ’ inte bara är en fråga om god biologisk bedömning av giltigheten för den specifika parningen – -den senare verkar vara av Peter Flom och av den kritiska biologen.
- Jag tror att statistiken berättar historien.Båda resultaten ska avslöjas men så länge data är korrekta och korrelationen kan förklaras är det parade testet mer exakt eftersom det tar hänsyn till korrelationen.
Svar
Jag förstår nu mycket bättre vad som oroade mig för parade kontra oparade t-tester och tillhörande p-värden. Att ta reda på det har varit en intressant resa och det har varit många överraskningar på vägen. En överraskning har resulterat från en undersökning av Michaels bidrag. Detta är oåterkallelig när det gäller praktiska råd. Dessutom säger han vad jag tror så gott som alla statistiker tror, och han har flera röster för att stödja detta. Men som en bit av teori, det är inte bokstavligen korrekt. Jag upptäckte detta genom att utarbeta formlerna för p-värdena och sedan fundera noga över hur man använder formlerna för att leda till motexempel. Jag är matematiker genom utbildning och motexemplet är ett ”matematikerns motexempel”. Det är inte något du skulle stöta på i praktisk statistik, men det var den typ av sak jag försökte ta reda på när jag frågade min original fråga.
Här är R-koden som ger motexemplet:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Observera följande funktioner: X och Y är två 10-tuplar vars skillnad är enorm och mycket nästan konstant. För många signifikanta siffror är korrelationen 1.000 …. p-värdet för det oparade testet är cirka 10 ^ 40 gånger mindre än p-värdet för det parade testet. Så detta strider mot Michaels konto, förutsatt att man läser sitt konto bokstavligt, i matematikstil. Här slutar den del av mitt svar som är relaterat till Michaels svar.
Här är tankarna som Peters svar. Under diskussionen om min ursprungliga fråga antog jag i en kommentar att två specifika fördelningar av p-värden som låter olika är faktiskt desamma. Jag kan nu bevisa detta. Det som är viktigare är att beviset avslöjar den grundläggande karaktären hos ett p-värde, så grundläggande att ingen text (som jag har stött på) stör att förklara. Kanske vet alla professionella statistiker hemligheten, men för mig verkade definitionen av p-värde alltid konstig och konstgjord. Innan jag ger bort statistikens hemlighet, låt mig specificera frågan.
Låt $ n > 1 $ och välj slumpmässigt och oberoende två slumpmässiga $ n $ – tupplar från en viss normalfördelning. Det finns två sätt att få ett p-värde från detta val. Det ena är att använda ett oparad t-test, och det andra är att använda ett parat t-test. Min antagande var att fördelningen av p -värden som man får är desamma i de två fallen. När jag först började tänka på det bestämde jag mig för att denna gissning hade varit dumma och var falsk: det oparade testet är associerat med en t-statistik på $ 2 (n-1 ) $ frihetsgrader, och det parade testet till en t-statistik om $ n-1 $ frihetsgrader. Dessa två fördelningar är olika, så hur skulle i själva verket de associerade fördelningarna av p-värden vara desamma? Först efter mycket ytterligare tanke insåg jag att denna uppenbara avskedande av min gissning var för lätt.
Svaret kommer från följande överväganden. Antag $ f: (0, \ infty) \ till (0, \ infty) $ är en kontinuerlig pdf (det vill säga dess integral har ett värde). En förändring av koordinater omvandlar tillhörande fördelning till enhetlig fördelning på $ [0,1] $. Formeln är $$ p = \ int_t ^ \ infty f (s) \, ds $$ och så mycket förklaras i många texter. Vad texterna inte pekar ut i sammanhanget med p-värden är att detta är exakt formeln som ger p-värdet från t-statistiken, när $ f $ är pdf för t -distribution. (Jag försöker hålla diskussionen så enkel som jag kan, för den är verkligen enkel. En fullständigare diskussion skulle behandla ensidiga och dubbelsidiga t-tester lite annorlunda, faktorer på 2 kan uppstå och t-statistiken kan ligga i $ (- \ infty, \ infty) $ istället för i $ [0, \ infty) $. Jag utelämnar allt det röran.)
Exakt samma diskussion gäller när du hittar p-värdet associerad med någon av de andra standarddistributionerna i statistiken. Återigen, om data är slumpmässigt fördelade (den här gången enligt någon annan fördelning) kommer de resulterande p-värdena att fördelas enhetligt i $ [0,1] $. / p>
Hur gäller detta för våra parade och oparade t-test? Poängen är i det parade t-testet, med prover som väljs oberoende och slumpmässigt, som i min kod ovan, följer värdet t verkligen t-distribution (med $ n-1 $ frihetsgrader). Så de p-värden som följer av att replikera valet av X och Y många gånger följer den enhetliga fördelningen på $ [0,1] $. Samma är tr ue för det oparade t-testet, men den här gången har t-fördelningen $ 2 (n-1) $ frihetsgrader. Ändå har de p-värden som resulterar också en enhetlig fördelning på $ [0,1] $, enligt det allmänna argumentet jag gav ovan.Om Peters kod ovan används för att bestämma p-värden, får vi två distinkta metoder för att rita ett slumpmässigt urval från den enhetliga fördelningen på $ [0,1] $. De två svaren är dock inte oberoende.
Kommentarer
- Jag tror inte ’ t tror att p-värdet har några mystiska seketer för sig. Vissa människor har en svår tid med det. Det är sannolikheten att observera ett värde som yttre eller mer extremt än vad som faktiskt observerades när nollhypotesen är SANT. Jag tror att du hade det rätt i en av dina formler. Jag tror att du uppgav att p- värden är jämnt fördelade. Ja, jag håller med om att när nollhypotesen är sant. Tänk på att nollhypotesen med ditt t-test kanske inte är sant. Då är p-värdet inte enhetligt. Det bör koncentreras närmare 0.
- För det andra talar vi om två olika teststatistik. En baseras på parning och en i inte i ditt exempel. Oavsett om jag nämnde det i mitt svar eller inte det oparade t-testet har en central t-fördelning med 2n-2 frihetsgrader medan motsvarande t-fördelning för det parade t-testet har n-1 frihetsgrader. Så den med större antal frihetsgrader är närmare den normala normalfördelningen än den andra. Spelar det någon roll när du använder dessa tester på verkliga data? Nej! Inte när n är ganska stor.
- Som en sidoteckning kräver en begränsning av det parade testet samma provstorlek som du borde ha om all data kan paras ihop. Men det oparade testet är giltigt med olika provstorlekar. Så i allmänhet har det oparade testet n + m-2 frihetsgrader.
- Ditt svar är långt och abstrakt och jag försökte vada genom det men jag ’ t förstår motexemplet. Jag ser bara inte ’ var du tar hänsyn till nollhypotesen och de verkliga uppgifterna. Det observerade p-värdet är integralen av lämplig t-fördelning för teststatistiken med tanke på data. Du jämför dessa siffror för de två t-fördelningarna och samma vanliga datamängd. Om du villkorar de observerade uppgifterna spelar dessa enhetliga fördelningar ingen roll. Jag är ledsen men jag ser inte ’ att ditt svar verkligen svarar på din fråga.
- Michael: koncentrera dig bara på R-koden jag gav. Det tar bara en sekund att springa. Nollhypotesen är att X och Y kommer från samma normalfördelning, vilket naturligtvis är väldigt falskt i mitt fall. I mitt exempel Cov (X, Y) > 0 och ändå ger det oparade testet mer betydelse än det parade testet.
Svar
Jag skulle erbjuda ett annat perspektiv. Ofta minskar parningen förspänningen. Antag att du är intresserad av om exponering E är en riskfaktor för ett kontinuerligt resultat Y. För varje E + -emne får du ett ålders- och könsmatchat ämne som är E-. Nu kan vi göra antingen ett parat t-test eller ett oparat t-test. Jag tycker att vi borde redogöra för att matcha uttryckligen och genomföra ett parat t-test. Det är mer principiellt genom att det tar hänsyn till designen. Huruvida matchningen ska beaktas i analysen är en fråga om avvikelsen mellan bias och varians. Att redogöra för matchning i analysen ger mer skydd mot partiskhet, men kan öka variansen. Att göra ett oparad t-test kan vara mer effektivt, men det skulle inte ge något skydd mot partiskhet.
Lämna ett svar