Párový versus nepárový t-test
On 31 ledna, 2021 by adminPředpokládám, že mám 20 myší. Spáruji myši nějakým způsobem, takže mám 10 párů. Pro účely této otázky by to mohlo být náhodné párování NEBO by to mohlo být rozumné párování, například pokus o párování myší ze stejného vrhu stejného pohlaví s podobnou hmotností NEBO by to mohlo být záměrně hloupé párování jako pokoušet se spárovat myši s tak nerovnými váhami, jaké by mohly být. Potom pomocí náhodných čísel přiřadím jednu myš v každé dvojici kontrolní skupině a druhou myš skupině, která má být ošetřena. Nyní provádím experiment, který ošetřuje pouze myši, které mají být ošetřeny, ale jinak nevěnuje žádnou pozornost právě provedeným opatřením.
Když někdo přijde analyzovat výsledky, může použít buď nepárový t- testování nebo párové t-testování. Jakým způsobem se budou lišit odpovědi? (V zásadě se zajímám o systematické rozdíly všech statistických parametrů, které je třeba odhadnout.)
Důvod, proč se ptám, je ten, že článek, kterého jsem se nedávno účastnil, byl kritizován biologem za použití spárovaného t-test spíše než nepárový t-test. Samozřejmě, že ve skutečném experimentu nebyla situace tak extrémní jako situace, kterou jsem načrtl, a podle mého názoru existovaly dobré důvody pro párování. Biolog ale nesouhlasil.
Zdá se mi, že není možné nesprávně zlepšit statistickou významnost (snížit hodnotu p) za okolností, které jsem načrtl, pomocí párového t-testu spíše než nepárový test, i když je párování nevhodné. Mohlo by to však zhoršit statistickou významnost, kdyby byly myši špatně spárovány. Je to správné?
Odpověď
Souhlasím s body, které vyslovují Frank i Peter, ale myslím si, že existuje jednoduchý vzorec který se dostane k jádru problému a pro OP by mohl být užitečný.
Nechť $ X $ a $ Y $ jsou dvě náhodné proměnné, jejichž korelace není známa.
Nechte $ Z = XY $
Jaká je varianta $ Z $?
Zde je jednoduchý vzorec: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ Co když $ \ text {Cov} (X, Y) > 0 $ (tj. $ X $ a $ Y $ jsou kladně korelovány)?
Potom $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. V tomto případě, pokud je párování provedeno kvůli pozitivní korelaci, například když máte co do činění se stejným tématem před a po intervenci, párování pomáhá, protože nezávislý párovaný rozdíl má nižší rozptyl než rozptyl, který získáte pro nepárový případ. Metoda snížila rozptyl. Test je silnější. To lze dramaticky ukázat s cyklickými daty. Viděl jsem příklad v knize, kde chtěli zjistit, zda je teplota ve Washingtonu DC vyšší než v New Yorku. Takže v obou městech měřili průměrnou měsíční teplotu řekněme 2 roky. V průběhu roku je samozřejmě velký rozdíl, a to kvůli čtyřem ročním obdobím. Tato variace je příliš velká na to, aby nepárový t test detekoval rozdíl. Párování založené na stejném měsíci téhož roku však tento sezónní efekt eliminuje a spárovaný test $ t $ jasně ukázal, že průměrná teplota v DC měla tendenci být vyšší než v New Yorku. $ X_i $ (teplota v NY v měsíci $ A $) a $ Y_i $ (teplota v DC v měsíci $ A $) navzájem pozitivně souvisí, protože roční období jsou v NY a DC stejná a města jsou si dostatečně blízká, že často zažít stejné meteorologické systémy, které ovlivňují teplotu. DC může být o něco teplejší, protože je jižněji.
Všimněte si, že čím větší kovariance nebo korelace, tím větší je zmenšení rozptylu.
Nyní předpokládejme, že $ \ text {Cov} (X, Y) $ je záporné.
Potom $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Nyní bude párování horší než nespárování, protože rozptyl se ve skutečnosti zvýší!
Když $ X $ a $ Y $ nesouvisí, pak pravděpodobně nezáleží na tom, jakou metodu použijete . Peterův náhodný párovací případ je jako tato situace.
Komentáře
- Michael, protože “ < “ a “ > “ mají na webových stránkách zvláštní význam, abyste se vyhnuli tomu, že velké řádky textu jednoduše zmizí z vašeho pohledu, je zásadní , abyste použijte pro ně v rovnicích označení $ \ TeX $ (kódy jsou “ \ lt “ a “ \ gt „). Označil jsem dvě rovnice, které vám způsobily tento problém.V budoucnu si prosím hned po zveřejnění přečtěte, co zveřejňujete, abyste se ujistili, že lidé vidí to, co jste si mysleli, že uvidí, a pak můžete svůj příspěvek nahlásit pro pozornost moderátora, pokud dojde k nějakému problému se značkou.
- @whuber Děkuji. Obvykle provádím kontrolu během a po zveřejnění příspěvku, protože zjišťuji, že hodně pokazím rovnice, zejména při předepisování. Chybějící tohle je neobvyklé a pravděpodobně se to stalo, protože to byl dlouhý příspěvek a já jsem jen nedbale přešel k něčemu jinému, co jsem chtěl nebo musel udělat. Někdy mě telefonní hovor vyruší a já zapomenu zkontrolovat. Pokud jde o speciální symboly, které způsobují zmizení textu v příspěvku, všiml jsem si toho. Myslím, že jednoduchým řešením je zajistit, abyste za symbolem nechali mezeru. Myslím, že to pro mě v minulosti fungovalo.
- +1, opravdu na místě. Všimněte si, že pokud $ X $ & $ Y $ dokonale nesouvisí ve vašem vzorku , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick V případě, že Cov (X, Y) < 0 mám otázka: Pokud je mým cílem odvodit E [X] -E [Y] z mého experimentu, pak I když jsem provedl párovou studii, když analyzuji svá data, stále se MOHU PŘEDSTAVOVAT, že výsledkem mého experimentu je realizace UNPAIRED randomized experiment. Můžu to udělat? Protože pokud jste skutečně provedli nepárový náhodný experiment, můžete doslovně dosáhnout stejného výsledku. Pak můžu jen vzít průměr každé skupiny (ignorovat párovací věci) a vzít rozdíl střední hodnoty dvou skupin. Toto je nezaujatý odhad E [Z]. Pro rozptyl mého odhadce používám …
- @MichaelChernick ukázkový rozptyl skupiny X a skupiny Y a shrnuji je
odpověď
Spíše než párování je pravděpodobně lepší porozumět podkladovému datovému modelu. Pokud je párování provedeno za účelem řešení nekontrolované heterogenity, je obvykle (s výjimkou studií s dvojčaty), že párování tento zdroj variability řídí pouze částečně a vícenásobná regrese by byla lepší. Důvodem je, že shoda na spojitých proměnných často vede ke zbytkové variabilitě, protože u takových proměnných není možné přesně odpovídat.
Komentáře
- Pokud měli by všichni dělat regresi, proč knihy o experimentálním designu, jako kniha Davida Coxe ‚, zdůrazňují význam párování nebo seskupování v biologických experimentech? Párování se vyhne skrytému předpokladu lineární závislosti, který má za následek regresi. Ale možná existují i jiné důvody: kdokoli ??
Odpovědět
Tyto dva testy (spárované a nepárové) se ptají různé otázky, aby mohli získat různé odpovědi. Správné párování je téměř vždy výkonnější než nepárové – to je skutečně bod spárování. Takže, protože říkáte, že párování je správné, je pravděpodobné, že hodnota p pro váš párový test je nižší než pro spárování stejných dat. Samozřejmě můžete udělat obojí a uvidíte sami.
Proto je odpověď na vaše dilema věcná, nikoli statistická. Je vaše párování správné?
Mohli byste získat více významný výsledek náhodného párování než z nepárového testu? Podívejme se:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Ano, můžete, i když zde je rozdíl velmi malý, spárovaný měl nižší p. Ten kód jsem spustil několikrát. Není divu, že někdy je jedno p nižší, jindy druhé, ale rozdíl byl ve všech případech malý. Jsem si však jistý, že v některých situacích může být rozdíl v hodnotách p velký.
Komentáře
- Díky za odpověď, ale moje otázka byla položena pro systematické rozdíly. Je zřejmé, že z dlouhodobého hlediska x ‚ sa y ‚ s občas vypadají, že jsou velmi dobře spárované , a příležitostně, jako by byly záměrně špatně spárovány. Určitě je ‚ statistická otázka, zda při náhodném výběru hodnot x a y je rozdělení hodnot p u obou testů stejné. Předpokládám, že by nemělo být ‚ příliš obtížné pro někoho, kdo zná více teoretických statistik než já, aby skutečně vypočítal dvě teoretická rozdělení p-hodnot. Můj odhad je, že jsou stejné.
- Ve skutečném případě, do kterého jsem byl zapojen, byla hodnota p pro nepárovaný kolem 0,04 a pro spárování 0,001. Podle kritického biologa bychom měli citovat .04. Podle mě zlepšení hodnoty p silně naznačuje, že naše párování bylo platné. Tvrdím, že ve statistikách zde existuje objektivní otázka s objektivní odpovědí a že ‚ nejde jen o otázku dobrého biologického úsudku o platnosti konkrétního párování – – zdá se, že to je názor Petera Floma a kritického biologa.
- Myslím, že statistiky vyprávějí příběh.Oba výsledky by měly být zveřejněny, ale pokud jsou data správná a korelace může být vysvětlena, je párový test přesnější, protože bere v úvahu korelaci.
Odpověď
Nyní chápu mnohem lépe, co mě znepokojovalo spárovanými versus nepárovými t-testy a přidruženými p-hodnotami. Zjištění bylo zajímavou cestou a na cestě k tomu došlo k mnoha překvapením. Jedno překvapení vyplynulo z vyšetřování Michaelova příspěvku. To je z hlediska praktických rad nezvratné. Navíc říká, čemu věří prakticky všichni statistici, a má několik hlasů, aby to podpořil. Teorie to není doslova správná. Zjistil jsem to vypracováním vzorců pro p-hodnoty a pečlivým přemýšlením, jak pomocí vzorců vést k protikladům. Výcvikem jsem matematik a protiklad je „matematickým protikladem“. Není to něco, na co byste narazili v praktické statistice, ale to bylo to, o čem jsem se snažil zjistit, když jsem se zeptal svého originálu otázka.
Zde je R-kód, který poskytuje protiklad:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Všimněte si následujících funkcí: X a Y jsou dvě desetice, jejichž rozdíl je obrovský a téměř konstantní. Pro mnoho významných čísel je korelace 1.000 …. Hodnota p pro nepárový test je přibližně 10 ^ 40krát menší než hodnota p pro párový test. To je tedy v rozporu s Michaelovým účtem, za předpokladu, že si jeho účet přečtete doslovně, ve stylu matematiky. Zde končí část mé odpovědi související s Michaelovou odpovědí.
Zde jsou myšlenky vyvolané Peterova odpověď. Během diskuse o mé původní otázce jsem v komentáři předpokládal, že dvě konkrétní distribuce hodnot p, které zní odlišně, jsou ve skutečnosti stejná. Mohu to nyní dokázat. Důležitější je, že důkaz odhaluje základní povaha hodnoty p, tak zásadní, že žádný text (na který jsem narazil) se neobtěžuje vysvětlit. Možná všichni profesionální statistici toto tajemství znají, ale definice p-hodnoty mi vždy připadala podivná a umělá. Než prozradím tajemství statistiků, dovolte mi specifikovat otázku.
Nechte $ n > 1 $ a vyberte náhodně a nezávisle dvě náhodné $ n $ – n-tice z nějaké normální distribuce. Existují dva způsoby, jak z této volby získat hodnotu p. Jedním z nich je použití nepárového t-testu a druhým je použití párového t-testu. Domnívám se, že distribuce p -hodnoty, které jeden dostane, jsou v obou případech stejné. Když jsem o tom poprvé začal přemýšlet, rozhodl jsem se, že tato domněnka byla pošetilá a byla falešná: nepárový test je spojen s t-statistikou na $ 2 (n-1 ) $ stupně volnosti a spárovaný test t-statistiky o $ n-1 $ stupních volnosti. Tyto dvě distribuce se liší, tak jak by na Zemi mohlo být přidružené rozdělení hodnot p stejné? Jen po hodně dále jsem si uvědomil, že toto zjevné odmítnutí mé domněnky bylo příliš snadné.
Odpověď pochází z následujících úvah. Předpokládejme $ f: (0, \ infty) \ to (0, \ infty) $ je spojitý pdf (to znamená, že jeho integrál má hodnotu jedna). Změna souřadnic převede přidružené rozdělení na rovnoměrné rozdělení na $ [0,1] $. Vzorec je $$ p = \ int_t ^ \ infty f (s) \, ds $$ a tolik je vysvětleno v mnoha textech. Na co však texty v kontextu p-hodnot nedokáží poukázat, je to přesně vzorec, který dává p-hodnotu z t-statistiky, když $ f $ je pdf pro t -rozdělení. (Snažím se udržet diskusi tak jednoduchou, jak jen mohu, protože je to opravdu jednoduché. Plnější diskuse by jednostranné a dvoustranné t-testy zacházela trochu odlišně, mohly by vzniknout faktory 2 a t-statistika může ležet v $ (- \ infty, \ infty) $ místo v $ [0, \ infty) $. Vynechávám všechno to nepořádek.)
Přesně stejná diskuse platí i při hledání hodnoty p spojené s některou z dalších standardních distribucí ve statistice. Pokud jsou data náhodně distribuována (tentokrát podle různých distribucí), budou výsledné p-hodnoty distribuovány rovnoměrně v $ [0,1] $.
Jak to platí pro naše spárované a nepárové t-testy? Jde o spárovaný t-test se vzorky vybranými nezávisle a náhodně, jako v mém kódu výše, hodnota t skutečně následuje a t-distribuce (s $ n-1 $ stupni volnosti). Takže p-hodnoty, které jsou výsledkem replikace volby X a Y, mnohokrát sledují jednotné rozdělení na $ [0,1] $. Totéž je tr ue pro nepárový t-test, i když tentokrát má t-distribuce $ 2 (n-1) $ stupňů volnosti. Výsledné hodnoty p mají nicméně také jednotné rozdělení na $ [0,1] $, a to obecným argumentem, který jsem uvedl výše.Pokud se k určení hodnot p použije Peterův výše uvedený kód, dostaneme dvě odlišné metody kreslení náhodného vzorku z jednotného rozdělení na $ [0,1] $. Tyto dvě odpovědi však nejsou nezávislé.
Komentáře
- Nemyslím si ‚, že by hodnota p měla nějaké tajemné tajemství. Někteří lidé mají Je to pravděpodobnost pozorování hodnoty jako vnější nebo extrémnější než to, co bylo skutečně pozorováno, když je nulová hypotéza PRAVDA. Myslím, že jste měli to právo v jednom ze svých vzorců. Myslím, že jste uvedl, že p- hodnoty jsou rovnoměrně rozloženy. Ano, souhlasím s tím, když je nulová hypotéza pravdivá. Mějte na paměti, že s vaším t testem nemusí být nulová hypotéza pravdivá. Pak hodnota p není jednotná. Měla by být koncentrována blíže k 0.
- Zadruhé mluvíme o dvou různých statistikách testů. Jedna je založena na párování a jedna není ve vašem příkladu. Ať už jsem to zmínil ve své odpovědi, nebo ne nepárový t test má centrální t rozdělení s 2n-2 stupni volnosti, zatímco odpovídající t rozdělení pro párový t test má n-1 stupňů volnosti. Ten s větším počtem stupňů volnosti je tedy blíže standardnímu normálnímu rozdělení než ten druhý. Záleží na tom, kdy použijete tyto testy na skutečná data? Ne! Ne, když je n přiměřeně velké.
- Jako vedlejší poznámku vyžaduje omezení spárovaného testu stejnou velikost vzorku, kterou byste měli mít, pokud lze spárovat všechna data. Nepárový test je ale platný pro nestejné velikosti vzorků. Obecně tedy nepárový test má n + m-2 stupně volnosti.
- Vaše odpověď je dlouhá a abstraktní a já jsem se ji snažil probrat, ale neudělal jsem ‚ nerozumím opačnému příkladu. Jen ‚ nevidím, kde berete v úvahu nulovou hypotézu a skutečná data. Pozorovaná p-hodnota je integrálem příslušného t rozdělení pro statistiku testu s ohledem na data. Porovnáte tato čísla pro dvě distribuce t a stejnou společnou datovou sadu. Pokud podmíníte pozorovaná data, nehrají tyto jednotné distribuce žádnou roli. Je mi líto, ale ‚ nevidím, že vaše odpověď skutečně odpovídá na vaši otázku.
- Michael: soustředím se jen na R-kód, který jsem dal. Spuštění trvá jen vteřinu. Nulová hypotéza je, že X a Y pocházejí ze stejného normálního rozdělení, což je v mém případě samozřejmě divoce falešné. V mém příkladu Cov (X, Y) > 0 a přesto nepárový test dává větší význam než párový test.
Odpověď
Navrhl bych jinou perspektivu. Párování se často provádí, což snižuje zkreslení. Předpokládejme, že vás zajímá, zda je expozice E rizikovým faktorem pro nepřetržitý výsledek Y. Za každý předmět E + získáte subjekt odpovídající věku a pohlaví, který je E-. Nyní bychom mohli udělat párový t-test nebo nepárový t-test. Myslím, že bychom měli explicitně odpovídat za párování a provést párový t-test. Je zásadnější v tom, že zohledňuje design. Zda při analýze zohlednit shodu je problém kompromisu zkreslení odchylky. Účtování shody v analýze poskytuje větší ochranu před zkreslením, ale může zvýšit rozptyl. Provedení nepárového t-testu může být efektivnější, ale neposkytuje žádnou ochranu před zkreslením.
Napsat komentář