Gepaarde versus ongepaarde t-test
Geplaatst op januari 31, 2021 door adminStel dat ik 20 muizen heb. Ik koppel de muizen op de een of andere manier, zodat ik 10 paar krijg. Voor deze vraag zou het een willekeurige koppeling kunnen zijn, OF het zou een verstandige koppeling kunnen zijn, zoals het proberen om muizen te koppelen uit hetzelfde nest, van hetzelfde geslacht, met hetzelfde gewicht, OF het kan een opzettelijk stomme koppeling zijn, zoals proberen muizen te koppelen aan gewichten die zo ongelijk zijn als ze maar kunnen zijn. Vervolgens gebruik ik willekeurige getallen om een muis in elk paar toe te wijzen aan de controlegroep en de andere muis aan de te behandelen groep. Ik doe nu het experiment, waarbij ik alleen de te behandelen muizen behandel, maar verder helemaal geen aandacht schenk aan de zojuist gemaakte afspraken.
Als men de resultaten gaat analyseren, kan men ofwel ongepaarde t- gebruiken. testen of gepaarde t-testen. Op welke manier zullen de antwoorden verschillen, indien aanwezig? (Ik ben in wezen geïnteresseerd in systematische verschillen van elke statistische parameter die moet worden geschat.)
De reden dat ik dit vraag is dat een artikel waar ik onlangs bij betrokken was, door een bioloog werd bekritiseerd omdat het een gepaarde t-test in plaats van een ongepaarde t-test Natuurlijk was de situatie in het eigenlijke experiment niet zo extreem als de situatie die ik heb geschetst, en er waren naar mijn mening goede redenen om te koppelen. Maar de bioloog was het daar niet mee eens.
Het lijkt mij dat het niet mogelijk is om de statistische significantie verkeerd te verbeteren (p-waarde verlagen), in de omstandigheden die ik heb geschetst, door een gepaarde t-test te gebruiken , in plaats van een ongepaarde test, zelfs als het ongepast is om te paren. Het zou echter de statistische significantie kunnen verslechteren als muizen slecht gepaard waren. Klopt dit?
Antwoord
Ik ben het eens met de punten die zowel Frank als Peter maken, maar ik denk dat er een eenvoudige formule is dat raakt de kern van het probleem en kan voor het OP de moeite waard zijn om te overwegen.
Laat $ X $ en $ Y $ twee willekeurige variabelen zijn waarvan de correlatie onbekend is.
Let $ Z = XY $
Wat is de variantie van $ Z $?
Hier is de eenvoudige formule: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ Wat als $ \ text {Cov} (X, Y) > 0 $ (dwz $ X $ en $ Y $ zijn positief gecorreleerd)?
Dan is $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. In dit geval, als de koppeling tot stand is gebracht vanwege een positieve correlatie, zoals wanneer u voor en na de interventie met hetzelfde onderwerp te maken heeft, helpt het koppelen omdat het onafhankelijke gepaarde verschil een lagere variantie heeft dan de variantie die u krijgt voor het ongepaarde geval. De methode verminderde de variantie. De test is krachtiger. Dit kan dramatisch worden aangetoond met cyclische gegevens. Ik zag een voorbeeld in een boek waarin ze wilden zien of de temperatuur in Washington DC hoger is dan in New York City. Dus namen ze de gemiddelde maandtemperatuur in beide steden gedurende bijvoorbeeld 2 jaar. Uiteraard is er door de vier seizoenen een enorm verschil in de loop van het jaar. Deze variatie is te groot voor een ongepaarde t-test om een verschil te detecteren. Koppeling op basis van dezelfde maand in hetzelfde jaar elimineert dit seizoenseffect echter en de gepaarde $ t $ -test toonde duidelijk aan dat de gemiddelde temperatuur in DC doorgaans hoger was dan in New York. $ X_i $ (temperatuur in New York in maand $ A $) en $ Y_i $ (temperatuur in DC in maand $ A $) zijn positief gecorreleerd omdat de seizoenen hetzelfde zijn in New York en DC en de steden zo dichtbij zijn dat ze vaak ervaar dezelfde weersystemen die de temperatuur beïnvloeden. DC kan iets warmer zijn omdat het verder naar het zuiden ligt.
Merk op dat hoe groter de covariantie of correlatie, des te groter de afname in variantie is.
Stel nu dat $ \ text {Cov} (X, Y) $ negatief is.
Dan is $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Koppelen zal erger zijn dan niet koppelen, omdat de variantie feitelijk groter is!
Wanneer $ X $ en $ Y $ niet gecorreleerd zijn, maakt het waarschijnlijk niet uit welke methode je gebruikt . Peters random pairing case is als deze situatie.
Reacties
- Michael, omdat ” < ” en ” > ” hebben een speciale betekenis op webpaginas, om te voorkomen dat grote delen van uw tekst gewoon uit het zicht verdwijnen, is het essentieel dat u gebruik $ \ TeX $ markup voor hen in vergelijkingen (de codes zijn ” \ lt ” en ” \ gt ” respectievelijk). Ik heb de twee vergelijkingen die dit probleem veroorzaakten, opgemaakt.Lees wat je in de toekomst plaatst onmiddellijk nadat je het hebt gepost om er zeker van te zijn dat mensen zien wat je dacht dat ze zouden zien, en voel je dan vrij om je bericht te markeren voor aandacht van de moderator als er een probleem is met de opmaak.
- @whuber Bedankt. Ik controleer het over het algemeen tijdens en na het posten, omdat ik merk dat ik vergelijkingen vaak verknoei, vooral bij het abonneren. Het missen van deze is ongebruikelijk en is waarschijnlijk gebeurd omdat het een lange post was en ik gewoon achteloos doorging met iets anders dat ik wilde of moest doen. Soms leidt een telefoontje me af en vergeet ik het te controleren. Wat betreft speciale symbolen die ervoor zorgen dat tekst in een bericht verdwijnt, heb ik dat opgemerkt. Ik denk dat een eenvoudige oplossing is om ervoor te zorgen dat je een spatie achter het symbool laat. Ik denk dat dat in het verleden voor mij heeft gewerkt.
- +1, echt goed. Merk op dat als $ X $ & $ Y $ perfect niet gecorreleerd zijn in uw voorbeeld , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick Voor het geval dat Cov (X, Y) < 0, ik een vraag: Als het mijn doel is om E [X] -E [Y] af te leiden uit mijn experiment, dan kan ik, zelfs al heb ik een gepaarde studie uitgevoerd, bij het analyseren van mijn gegevens nog steeds BEWAREN dat het resultaat van mijn experiment een realisatie is van UNPAIRED gerandomiseerd experiment. Kan ik dit doen? Omdat als je echt een ongepaard willekeurig experiment hebt gedaan, je letterlijk hetzelfde resultaat kunt krijgen. Dan kan ik gewoon het gemiddelde nemen van elke groep (negeer de koppelingsdingen) en neem het verschil tussen het gemiddelde van de twee groepen. Dit is een zuivere schatter van E [Z]. Voor de variantie van mijn schatter, gebruik ik gewoon …
- @MichaelChernick de steekproefvariantie van groep X en groep Y en som ze op
Antwoord
In plaats van te koppelen is het waarschijnlijk beter om het onderliggende gegevensmodel te begrijpen. Als het paren wordt gedaan om met ongecontroleerde heterogeniteit om te gaan, is het meestal het geval (behalve in tweelingonderzoeken) dat het paren deze bron van variabiliteit slechts gedeeltelijk beheerst en meervoudige regressie het beter zou doen. Dit komt doordat het matchen op continue variabelen vaak resulteert in resterende variabiliteit omdat het niet mogelijk is om exact te matchen met dergelijke variabelen.
Opmerkingen
- Als we zouden allemaal regressie moeten doen, waarom benadrukken boeken over experimenteel ontwerp, zoals het ‘ boek van David Cox, het belang van paren of groeperen bij biologische experimenten? Pairing vermijdt de verborgen veronderstelling van lineaire afhankelijkheid die gepaard gaat met regressie. Maar misschien zijn er nog andere redenen: iemand ??
Antwoord
De twee tests (gekoppeld en niet-gekoppeld) vragen verschillende vragen zodat ze verschillende antwoorden kunnen krijgen. Correcte koppeling is bijna altijd krachtiger dan ongepaarde – dat is eigenlijk het punt van koppelen. Dus aangezien u zegt dat de koppeling correct is, is het waarschijnlijk dat de p-waarde voor uw gepaarde test lager is dan voor dezelfde gegevens ongepaard. U kunt natuurlijk beide doen en het zelf zien.
Daarom is het antwoord op uw dilemma inhoudelijk, niet statistisch. Klopt uw koppeling?
Kunt u een meer significant resultaat van willekeurige koppeling dan van een niet-gekoppelde test? Laten we eens kijken:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Ja dat kan, hoewel hier het verschil erg klein is, het paar had een lagere p. Ik heb die code verschillende keren uitgevoerd. Het is niet verrassend dat soms de ene p lager is, soms de andere, maar het verschil was in alle gevallen klein. Ik ben er echter zeker van dat het verschil in p-waarden in sommige situaties groot kan zijn.
Opmerkingen
- Bedankt voor het antwoord, maar mijn vraag is gesteld voor systematische verschillen. Het is duidelijk dat in een lange reeks van x ‘ s en y ‘ s, x en y er af en toe uitzien alsof ze erg goed met elkaar zijn gepaard , en soms alsof ze opzettelijk slecht zijn gekoppeld. Het is zeker ‘ een statistische vraag of, bij het willekeurig kiezen van x en y, de verdeling van p-waarden hetzelfde is voor de twee tests. Ik veronderstel dat het ‘ niet te moeilijk zou moeten zijn voor iemand die meer theoretische statistieken kent dan ik, om de twee theoretische verdelingen van p-waarden daadwerkelijk te berekenen. Ik vermoed dat ze hetzelfde zijn.
- In het daadwerkelijke geval waarin ik betrokken was, was de p-waarde voor ongepaard rond .04 en voor paar .001. Volgens de kritische bioloog zouden we .04 moeten citeren. Volgens mij geeft de verbetering in p-waarde sterk aan dat onze koppeling geldig was. Ik beweer dat er hier een objectieve vraag is in de statistieken, met een objectief antwoord, en dat het ‘ niet alleen een kwestie is van goed biologisch oordeel over de geldigheid van de specifieke koppeling – -de laatste lijkt de mening te zijn van Peter Flom en van de kritische bioloog.
- Ik denk dat de statistieken het verhaal vertellen.Beide resultaten moeten worden bekendgemaakt, maar zolang de gegevens correct zijn en de correlatie kan worden verklaard, is de gepaarde test nauwkeuriger omdat deze rekening houdt met de correlatie.
Antwoord
Ik begrijp nu veel beter wat me zorgen baarde over gepaarde versus ongepaarde t-tests en bijbehorende p-waarden. Het is een interessante reis geweest om erachter te komen, en er zijn onderweg veel verrassingen geweest. Een verrassing is het resultaat van een onderzoek naar Michaels bijdrage. Dit is onberispelijk in termen van praktisch advies. Bovendien zegt hij wat ik denk dat vrijwel alle statistici geloven, en hij heeft verschillende upvotes om dit te ondersteunen. Echter, als onderdeel van theorie, het is niet letterlijk correct. Ik ontdekte dit door de formules voor de p-waarden uit te werken, en vervolgens goed na te denken over het gebruik van de formules om tot tegenvoorbeelden te leiden. Ik ben een wiskundige van opleiding, en het tegenvoorbeeld is het tegenvoorbeeld van een wiskundige. Het is niet iets dat je tegenkomt in praktische statistieken, maar het was was iets dat ik probeerde te weten te komen toen ik mijn origineel vroeg vraag.
Hier is de R-code die het tegenvoorbeeld geeft:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Let op de volgende kenmerken: X en Y zijn twee 10-tupels waarvan het verschil enorm is en vrijwel constant. Voor veel significante cijfers is de correlatie 1.000 … De p-waarde voor de ongepaarde test is ongeveer 10 ^ 40 keer kleiner dan de p-waarde voor de gepaarde test. Dit is dus in tegenspraak met Michaels verslag, op voorwaarde dat men zijn verslag letterlijk leest, in wiskundige stijl. Hier eindigt het deel van mijn antwoord dat betrekking heeft op Michaels antwoord.
Hier zijn de gedachten die door Peter s antwoord. Tijdens de bespreking van mijn oorspronkelijke vraag vermoedde ik in een opmerking dat twee specifieke verdelingen van p-waarden die verschillend klinken in feite hetzelfde zijn. Ik kan dit nu bewijzen. Wat belangrijker is, is dat het bewijs onthult de fundamentele aard van een p-waarde, zo fundamenteel dat geen enkele tekst (die ik ben tegengekomen) het moeilijk maakt om uit te leggen. Misschien kennen alle professionele statistici het geheim, maar voor mij leek de definitie van p-waarde altijd vreemd en kunstmatig. Voordat ik het geheim van de statisticus weggeef, wil ik eerst de vraag specificeren.
Laat $ n > 1 $ en kies willekeurig en onafhankelijk twee willekeurige $ n $ – tuples uit een normale verdeling. Er zijn twee manieren om een p-waarde uit deze keuze te halen. De ene is om een ongepaarde t-toets te gebruiken en de andere is om een gepaarde t-toets te gebruiken. Mijn vermoeden was dat de verdeling van p -waarden die men krijgt zijn hetzelfde in de twee gevallen. Toen ik er voor het eerst over na begon te denken, besloot ik dat dit vermoeden roekeloos was geweest en onjuist was: de ongepaarde test is gekoppeld aan een t-statistiek op $ 2 (n-1 ) $ vrijheidsgraden, en de gepaarde test voor een t-statistiek op $ n-1 $ vrijheidsgraden. Deze twee verdelingen zijn verschillend, dus hoe kunnen in hemelsnaam de bijbehorende verdelingen van p-waarden hetzelfde zijn? verder nadenken realiseerde ik me dat dit voor de hand liggende verwerping van mijn vermoeden te gemakkelijk was.
Het antwoord komt voort uit de volgende overwegingen. Veronderstel $ f: (0, \ infty) \ tot (0, \ infty) $ is een continue pdf (dat wil zeggen, de integraal heeft de waarde één). Een verandering van coördinaten zet de bijbehorende verdeling om in de uniforme verdeling op $ [0,1] $. De formule is $$ p = \ int_t ^ \ infty f (s) \, ds $$ en zoveel wordt in veel teksten uitgelegd. Waar de teksten in de context van p-waarden niet op wijzen, is dat dit exact de formule is die de p-waarde uit de t-statistiek geeft, wanneer $ f $ de pdf is voor de t -distributie. (Ik probeer de discussie zo eenvoudig mogelijk te houden, omdat het echt eenvoudig is. Een vollediger discussie zou eenzijdige en tweezijdige t-toetsen iets anders behandelen, factoren van 2 kunnen optreden en de t-statistiek ligt misschien in $ (- \ infty, \ infty) $ in plaats van in $ [0, \ infty) $. Ik laat al die rommel achterwege.)
Precies dezelfde discussie is van toepassing bij het vinden van de p-waarde geassocieerd met een van de andere standaard distributies in statistieken. Nogmaals, als de gegevens willekeurig worden verdeeld (dit keer volgens een andere distributie), dan zullen de resulterende p-waarden uniform worden verdeeld in $ [0,1] $.
Hoe is dit van toepassing op onze gepaarde en ongepaarde t-tests? Het punt is in de gepaarde t-test, met monsters die onafhankelijk en willekeurig zijn gekozen, zoals in mijn code hierboven, volgt de waarde van t inderdaad een t-verdeling (met $ n-1 $ vrijheidsgraden). Dus de p-waarden die het resultaat zijn van het repliceren van de keuze van X en Y volgen vaak de uniforme verdeling op $ [0,1] $. Hetzelfde is tr ue voor de ongepaarde t-test, hoewel deze keer de t-verdeling $ 2 (n-1) $ vrijheidsgraden heeft. Desalniettemin hebben de resulterende p-waarden ook een uniforme verdeling over $ [0,1] $, volgens het algemene argument dat ik hierboven gaf.Als Peters bovenstaande code wordt toegepast om p-waarden te bepalen, dan krijgen we twee verschillende methoden om een willekeurige steekproef te trekken uit de uniforme verdeling op $ [0,1] $. De twee antwoorden zijn echter niet onafhankelijk.
Reacties
- Ik denk niet ‘ niet dat de p-waarde mysterieuze geheimen heeft. Sommige mensen hebben een moeilijke tijd mee. Het is de waarschijnlijkheid dat een waarde als extereme of extremer wordt waargenomen dan wat werkelijk werd waargenomen toen de nulhypothese WAAR is. Ik denk dat u dat recht had in een van uw formules. Ik denk dat u zei dat p- waarden zijn uniform verdeeld. Ja, daar ben ik het mee eens wanneer de nulhypothese waar is. Houd er rekening mee dat met uw t-toets de nulhypothese mogelijk niet waar is. Dan is de p-waarde niet uniform. Deze moet dichter bij 0 worden geconcentreerd.
- Ten tweede hebben we het over twee verschillende teststatistieken. De ene is gebaseerd op koppelen en de andere niet in jouw voorbeeld. Of ik het in mijn antwoord heb genoemd of niet de ongepaarde t-test heeft een centrale t-verdeling met 2n-2 vrijheidsgraden terwijl de overeenkomstige t-verdeling voor de gepaarde t-test n-1 vrijheidsgraden heeft. Dus degene met het grootste aantal vrijheidsgraden ligt dichter bij de standaard normale verdeling dan de andere. Maakt dat uit wanneer u deze tests toepast op echte gegevens? Nee! Niet als n redelijk groot is.
- Even terzijde: een beperking van de gepaarde test vereist een gelijke steekproefomvang die je zou moeten hebben als alle gegevens kunnen worden gecombineerd. Maar de ongepaarde test is geldig met ongelijke steekproefgroottes. Dus in het algemeen heeft de ongepaarde test n + m-2 vrijheidsgraden.
- Je antwoord is lang en abstract en ik probeerde er doorheen te waden, maar dat deed ik niet ‘ Ik begrijp het tegenvoorbeeld niet. Ik zie ‘ niet waar je rekening houdt met de nulhypothese en de echte gegevens. De waargenomen p-waarde is de integraal van de juiste t-verdeling voor de teststatistiek gegeven de gegevens. Je vergelijkt die getallen voor de twee t-distributies en dezelfde gemeenschappelijke dataset. Als je voorwaarden stelt aan de geobserveerde data, spelen deze uniforme verdelingen geen rol. Het spijt me, maar ik ‘ zie niet in dat uw antwoord uw vraag echt beantwoordt.
- Michael: concentreer u gewoon op de R-code die ik gaf. Het duurt maar een seconde om te rennen. De nulhypothese is dat X en Y uit dezelfde normale verdeling komen, wat in mijn geval natuurlijk enorm onwaar is. In mijn voorbeeld Cov (X, Y) > 0 en toch geeft de ongepaarde test meer betekenis dan de gepaarde test.
Antwoord
Ik zou een ander perspectief willen bieden. Vaak wordt het paren gedaan om de vooringenomenheid te verminderen. Stel dat u geïnteresseerd bent in de vraag of blootstelling E een risicofactor is voor een continue uitkomst Y. Voor elk E + -onderwerp krijgt u een op leeftijd en geslacht gematchte proefpersoon die E- is. Nu kunnen we een gepaarde t-test of een ongepaarde t-test doen. Ik denk dat we expliciet rekening moeten houden met het matchen en een gepaarde t-test moeten uitvoeren. Het is meer principieel omdat het rekening houdt met het ontwerp. Of er bij de analyse rekening moet worden gehouden met matching, is een kwestie van de afweging tussen bias en variantie. Het in aanmerking nemen van matching in de analyse biedt meer bescherming tegen bias, maar kan de variantie vergroten. Het uitvoeren van een ongepaarde t-test is wellicht efficiënter, maar biedt geen enkele bescherming tegen vertekening.
Geef een reactie