Pariksi verrattu parittamaton t-testi
On tammikuu 31, 2021 by adminOletetaan, että minulla on 20 hiirtä. Yhdistän hiiret jollakin tavalla, jotta saan 10 paria. Tätä kysymystä varten se voi olla satunnainen pariliitos, TAI se voi olla järkevä pariliitos, kuten yrittää yhdistää hiiret samasta pentueesta, samasta sukupuolesta, samanpainoisilla, TAI se voi olla tarkoituksellisesti tyhmä pariliitos, kuten yrittää yhdistää hiiret niin epätasaiseen painoon kuin mahdollista. Sitten osoitan satunnaisluvuilla yhden hiiren kussakin parissa kontrolliryhmään ja toisen hiiren hoidettavaan ryhmään. Suoritan nyt kokeen, käsittelen vain hoidettavia hiiriä, mutta muuten kiinnitän mitään huomiota juuri tehtyihin järjestelyihin.
Tulosten analysoimiseksi voidaan joko käyttää parittamatonta t- testaus tai pariksi kytketty t-testaus. Millä tavalla, jos sellaisia on, vastaukset eroavat toisistaan? (Olen kiinnostunut periaatteessa kaikkien arvioitavien tilastollisten parametrien systemaattisista eroista.)
Syy, miksi pyydän tätä, on se, että biologi kritisoi äskettäin tekemääni paperia pariliitoksen käytöstä. t-testi pikemminkin kuin parittamaton t-testi. Todellisessa kokeessa tilanne ei tietenkään ollut yhtä äärimmäinen kuin luonnostelin, ja pariliitokseen oli mielestäni hyviä syitä. Mutta biologi ei ollut samaa mieltä.
Minusta tuntuu, että tilastollista merkitsevyyttä ei voida parantaa väärin (pienentää p-arvoa) luonnostelluissa olosuhteissa pariliitetyllä t-testillä , eikä parittamatonta testiä, vaikka parin muodostaminen ei olisikaan tarkoituksenmukaista. Se voisi kuitenkin pahentaa tilastollista merkitsevyyttä, jos hiiret olisivat pariksi huonosti. Onko tämä oikein?
Vastaus
Olen samaa mieltä sekä Frankin että Peterin esittämistä näkökohdista, mutta mielestäni on olemassa yksinkertainen kaava se tulee ongelman ytimeen ja saattaa olla kannattavaa OP: n harkittavaksi.
Olkoon $ X $ ja $ Y $ kaksi satunnaismuuttujaa, joiden korrelaatiota ei tunneta.
Olkoon $ Z = XY $
Mikä on $ Z $: n varianssi?
Tässä on yksinkertainen kaava: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ Entä jos $ \ text {Cov} (X, Y) > 0 $ (ts. $ X $ ja $ Y $ korreloivat positiivisesti)?
Sitten $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. Tässä tapauksessa, jos pariliitos tehdään positiivisen korrelaation takia, kuten silloin, kun olet tekemisissä saman aiheen kanssa ennen ja jälkeen toimenpiteen, pariliitos auttaa, koska itsenäisen pariliitoksen erolla on pienempi varianssi kuin parittamattomalle tapaukselle. Menetelmä vähensi varianssia. Testi on tehokkaampi. Tämä voidaan osoittaa dramaattisesti syklisellä datalla. Näin kirjan esimerkin, jossa he halusivat nähdä, onko Washington DC: n lämpötila korkeampi kuin New Yorkissa. Joten he ottivat keskimääräisen kuukausilämpötilan molemmissa kaupungeissa sanotaan 2 vuotta. Tietysti on valtava ero vuoden aikana neljän vuodenajan takia. Tämä vaihtelu on liian suuri, jotta parittamaton t-testi havaitsee eron. Kuitenkin samana vuonna samaan kuukauteen perustuva pariliitos eliminoi tämän kausivaikutuksen, ja pariksi kytketty $ t $ -testi osoitti selvästi, että DC: n keskilämpötila oli yleensä korkeampi kuin New Yorkissa. $ X_i $ (lämpötila NY: ssä kuukaudessa $ A $) ja $ Y_i $ (lämpötila DC: ssä kuukaudessa $ A $) korreloivat positiivisesti, koska vuodenajat ovat samat NY: ssä ja DC: ssä ja kaupungit ovat riittävän lähellä, jotta ne usein kokea samat sääjärjestelmät, jotka vaikuttavat lämpötilaan. DC voi olla hieman lämpimämpi, koska se on etelämpänä.
Huomaa, että mitä suurempi kovarianssi tai korrelaatio on, sitä suurempi on varianssin pieneneminen.
Oletetaan, että $ \ text {Cov} (X, Y) $ on negatiivinen.
Sitten $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Pariliitoksen muodostaminen on nyt huonompaa kuin pariliitoksen muodostamatta jättäminen, koska varianssi todella kasvaa!
Kun $ X $ ja $ Y $ ovat korreloimattomia, sillä ei todennäköisesti ole väliä mitä menetelmää käytät . Peterin satunnainen pariliitostapaus on kuin tämä tilanne.
Kommentit
- Michael, koska ” < ” ja ” > ” -sivustoilla on erityisiä merkityksiä verkkosivuilla, jotta vältetään siltä, että suuret joukot tekstiäsi yksinkertaisesti katoavat näkyvistä, on välttämätöntä käytä $ \ TeX $ -merkintää heille yhtälöissä (koodit ovat ” \ lt ” ja ” \ gt ”. Merkitsin kaksi yhtälöä, jotka aiheuttivat tämän ongelman sinulle.Lue tulevaisuudessa, mitä lähetät heti lähettämisen jälkeen varmistaaksesi, että ihmiset näkevät mitä luulet näkevänsä. Ilmoita sitten viestisi valvojalle, jos merkinnässä on ongelmia.
- @whuber Kiitos. Tarkastan yleensä lähettämisen aikana ja sen jälkeen, koska huomaan, että sekaan yhtälöt paljon varsinkin kun alaindeksoin. Tämän puuttuminen on epätavallista ja luultavasti tapahtui, koska se oli pitkä viesti ja jatkoin huolimattomasti jotain muuta, jonka halusin tai tarvitsin tehdä. Joskus puhelinsoitto häiritsee minua ja unohdan tarkistaa. Mitä erityisiin symboleihin, jotka aiheuttavat tekstin katoamisen viestissä, olen havainnut sen. Mielestäni yksinkertainen ratkaisu on varmistaa, että jätät välilyönnin symbolin jälkeen. Luulen, että se on toiminut minulle aiemmin.
- +1, todella paikalla. Huomaa, että jos $ X $ & $ Y $ ovat täysin korreloimattomia näytteessäsi , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick Tapaukseen, kun Cov (X, Y) < 0, minulla on kysymys: Jos tavoitteenani on päätellä kokeesta E [X] -E [Y], JOIN SINUN TEENkin parillisen tutkimuksen, kun analysoin tietojani, voin silti YHDISTETTÄVÄT, että kokeiluni tulos on toteutus parittomista satunnaistetuista koe. Voinko tehdä tämän? Koska jos teit todella parittoman satunnaisen kokeen, voit kirjaimellisesti saada saman lopputuloksen. Sitten voin vain ottaa kunkin ryhmän keskiarvon (ohittaa pariliitoksen) ja ottaa kahden ryhmän keskiarvon eron. Tämä on puolueeton estimaatti E [Z]: lle. Estimaattorini varianssina käytän vain …
- @MichaelChernick ryhmän X ja Y ryhmän varianssia ja summataan ne yhteen
vastaus
Pariliitoksen sijasta on luultavasti parempi ymmärtää taustalla oleva tietomalli. Jos pariliitos tehdään hallitsemattoman heterogeenisuuden käsittelemiseksi, yleensä (paitsi kaksoistutkimuksissa) pariliitos hallitsee vain osittain tätä vaihtelulähdettä ja moninkertainen regressio toimisi paremmin. Tämä johtuu siitä, että jatkuvien muuttujien yhteensovittaminen johtaa usein jäännösvaihteluihin, koska tällaisia muuttujia ei voida täsmällisesti sovittaa.
Kommentit
- Jos Pitäisikö kaikkien tehdä regressiota, miksi kokeellisen suunnittelun kirjat, kuten David Cox ’, korostavat pariliitoksen tai ryhmittelyn merkitystä biologisissa kokeissa? Pariliitoksella vältetään regressioon liittyvä piilotettu oletus lineaarisesta riippuvuudesta. Mutta ehkä on muitakin syitä: kuka tahansa?
Vastaa
Kaksi testiä (pariksi ja pariksi) kysyvät erilaisia kysymyksiä, jotta he voivat saada erilaisia vastauksia. Oikea pariliitos on melkein aina tehokkaampaa kuin parittamaton – se on oikeastaan pariliitoksen tarkoitus. Joten, koska sanot pariliitoksen olevan oikein, on todennäköistä, että pariksi liitetyn testin p-arvo on pienempi kuin samalle parittamalle datalle. Voisit tietysti tehdä molemmat ja nähdä itse.
Siksi vastaus ongelmasi on sisällöllinen, ei tilastollinen. Onko pariliitoksesi oikein?
Voisitko saada enemmän merkittävä tulos satunnaisesta pariliitoksesta kuin parittamattomasta testistä? Katsotaanpa:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Kyllä voit, vaikka tässä ero on hyvin pieni, pariliitoksella oli alempi s. Juoksin koodin useita kertoja. Ei ole yllättävää, joskus yksi p on pienempi, joskus toinen, mutta ero oli kaikissa tapauksissa pieni. Olen kuitenkin varma, että joissakin tilanteissa p-arvojen ero voi olla suuri.
Kommentit
- Kiitos vastauksesta, mutta kysymykseni esitettiin systemaattisten erojen suhteen. On selvää, että pitkällä aikavälillä x ’ s ja y ’ s, x ja y näyttävät toisinaan olevan ikään kuin pariksi , ja toisinaan ikään kuin ne olisi tarkoituksella huonosti paritettu. Varmasti ’ on tilastollinen kysymys, onko p-arvojen jakauma satunnaisesti valittaessa x ja y satunnaisesti kahdessa testissä. Oletan, että sen ei pitäisi olla ’ oltava liian vaikeaa jollekin, joka tietää enemmän teoreettisia tilastoja kuin minä, laskemaan p-arvojen kaksi teoreettista jakaumaa. Oletan, että ne ovat samat.
- Todellisessa tapauksessa, jossa olin mukana, parittoman p-arvo oli noin .04 ja pariliitoksen. Kriittisen biologin mukaan meidän pitäisi lainata .04. Minun mielestä p-arvon paraneminen osoittaa vahvasti, että pariliitoksemme oli voimassa. Väitän, että tilastoissa on objektiivinen kysymys, johon vastataan objektiivisesti, ja että se ’ ei ole vain hyvä biologinen arvio pariliitoksen pätevyydestä – – jälkimmäinen näyttää olevan Peter Flomin ja kriittisen biologin mielipide.
- Luulen, että tilastot kertovat tarinan.Molemmat tulokset on julkistettava, mutta niin kauan kuin tiedot ovat oikeita ja korrelaatio voidaan selittää, paritesti on tarkempi, koska se ottaa korrelaation huomioon.
Vastaa
Ymmärrän nyt paljon paremmin, mikä oli minulle huolestuttavaa parittamattomien ja parittamattomien t-testien ja niihin liittyvien p-arvojen suhteen. Selvittäminen on ollut mielenkiintoinen matka, ja matkan varrella on ollut monia yllätyksiä. Yksi yllätys on aiheutunut Michaelin panoksen tutkimisesta. Tämä on käytännön neuvojen suhteen moitteetonta. Lisäksi hän sanoo sen, mihin luulen, että käytännössä kaikki tilastotieteilijät uskovat, ja hänellä on useita myönteisiä ääniä tämän tukemiseksi. teoria, se ei ole kirjaimellisesti oikein. Löysin tämän kehittämällä p-arvojen kaavat ja miettimällä sitten huolellisesti, kuinka kaavojen avulla voidaan johtaa vasta-esimerkkeihin. Olen matemaatikko koulutuksella ja vastaesimerkki on ”matemaatikon” vastaesimerkki ”. Se ei ole jotain, mitä kohtaat käytännön tilastoissa, mutta se oli sellainen asia, josta yritin selvittää, kun kysyin alkuperäiseltä kysymys.
Tässä on vasta-esimerkki antava R-koodi:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Huomaa seuraavat ominaisuudet: X ja Y ovat kaksi 10 tuplea, joiden ero on valtava ja melkein vakio. Monille merkittäville luvuille korrelaatio on 1.000 … parittoman testin p-arvo on noin 10 ^ 40 kertaa pienempi kuin paritetun testin p-arvo. Joten tämä on ristiriidassa Michaelin tilin kanssa edellyttäen, että hänen lukemisensa luetaan kirjaimellisesti matemaatikkotyylisesti. Tässä loppuu vastaukseni osa, joka liittyy Michaelin vastaukseen.
Tässä ovat ajatuksia, jotka Peterin vastaus. Alkuperäisen kysymykseni keskustelun aikana arvasin kommentissa, että kaksi erilaista p-arvojen jakaumaa, jotka kuulostavat erilaisilta, ovat itse asiassa samat. Voin nyt todistaa tämän. Vielä tärkeämpää on, että todiste paljastaa p-arvon perusluonne, niin perustavanlaatuinen, ettei mikään teksti (jota olen törmännyt) ei viitsi selittää. Ehkä kaikki ammattistatistit tietävät salaisuuden, mutta minulle p-arvon määritelmä tuntui aina oudolta ja keinotekoiselta. Ennen kuin luovutan tilastotieteilijän salaisuuden, anna minun määritellä kysymys.
Anna $ n > 1 $ ja valitse satunnaisesti ja itsenäisesti kaksi satunnaista $ n $ – joukot normaalijakaumasta. Tällä valinnalla on kaksi tapaa saada p-arvo. Yksi on käyttää parittamatonta t-testiä ja toinen käyttää paritettua t-testiä. Oletukseni oli, että p -arvot, jotka yksi saa, ovat samat molemmissa tapauksissa. Kun aloin ajatella sitä, päätin, että tämä oletus oli ollut tyhmä ja väärä: parittamaton testi liittyy t-tilastoon $ 2: lla (n-1 ) $ vapausasteet, ja pariksi testattu t-tilasto $ $ 1-$ $ vapausasteista. Nämä kaksi jakaumaa ovat erilaisia, joten miten ihmeessä siihen liittyvät p-arvojen jakaumat voivat olla samat? vasta paljon jatkoajattelin, tajusin, että tämä ilmeinen hylkääminen arveluistani oli liian helppoa.
Vastaus tulee seuraavista seikoista: Oletetaan, että $ f: (0, \ infty) \ – (0, \ infty) $ on jatkuva pdf (eli sen integraalilla on arvo yksi). Koordinaattien muutos muuntaa liittyvän jakauman tasaiseksi jakaumaksi $ [0,1] $: lla. Kaava on $$ p = \ int_t ^ \ infty f (s) \, ds $$, ja tämä selitetään monissa teksteissä. Mitä tekstit eivät pysty huomauttamaan p-arvojen yhteydessä, on se, että tämä on täsmälleen kaava, joka antaa p-arvon t-tilastosta, kun $ f $ on t: n pdf -jako. (Yritän pitää keskustelun niin yksinkertaisena kuin pystyn, koska se on todella yksinkertaista. Täydellisempi keskustelu kohtelee yksi- ja kaksipuolisia t-testejä hieman eri tavalla, tekijöitä 2 voi syntyä ja t-tilasto saattaa olla $ (- \ infty, \ infty) $: ssa $ [0, \ infty) $: n sijaan. Jätän kaiken sekaannuksen pois.)
Aivan sama keskustelu pätee p-arvon löytämisessä Yhdistetään mihin tahansa muuhun tilastojen vakiojakaumaan. Jos data jakautuu satunnaisesti (tällä kertaa jonkin muun jakauman mukaan), saadut p-arvot jakautuvat tasaisesti dollariin [0,1] $.
Kuinka tämä pätee paritettuihin ja parittamattomiin t-testeihimme? Asia on pariliitetyssä t-testissä, jossa näytteet valitaan itsenäisesti ja satunnaisesti, kuten yllä olevassa koodissani, t: n arvo seuraa todellakin t-jakauma ($ n-1 $: n vapausasteella). Joten p-arvot, jotka syntyvät toistamalla X: n ja Y: n valinta monta kertaa, seuraavat yhtenäistä jakaumaa arvolla $ [0,1] $. Sama on tr ue parittamattomalle t-testille, vaikka tällä kertaa t-jakaumalla on $ 2 (n-1) $ vapausastetta. Tuloksena olevilla p-arvoilla on kuitenkin tasainen jakauma dollarilla [0,1] $ edellä esitetyn yleisen argumentin perusteella.Jos Peterin yllä olevaa koodia käytetään määrittämään p-arvot, saamme kaksi erillistä tapaa piirtää satunnainen näyte $ [0,1] $: n tasaisesta jakaumasta. Nämä kaksi vastausta eivät kuitenkaan ole riippumattomia.
Kommentit
- En ’ usko, että p-arvolla on salaperäisiä saloja. Joillakin ihmisillä on vaikeaa aikaa sen kanssa. Se on todennäköisyys havaita arvo äärimmäisenä tai äärimmäisempänä kuin mitä todellisuudessa havaittiin, kun nollahypoteesi on TOSI. Luulen, että sinulla oli tämä oikeus yhdessä kaavassasi. Luulen, että totesit, että p- arvot ovat jakautuneet tasaisesti. Kyllä, olen samaa mieltä, kun nollahypoteesi on totta. Pidä mielessä, että t-testisi yhteydessä nollahypoteesi ei välttämättä ole totta. Sitten p-arvo ei ole yhtenäinen. Se tulisi keskittää lähemmäs 0.
- Toiseksi puhumme kahdesta eri testitilastosta. Yksi perustuu pariliitokseen ja toinen ei esimerkissäsi. Mainitsinko sen vastauksessani vai ei parittomalla t-testillä on keskeinen t-jakauma 2n-2 vapausasteella, kun taas vastaavalla t-jakaumalla pariliitetyllä t-testillä on n-1 vapausastetta. Joten se, jolla on enemmän vapausasteita, on lähempänä normaalia normaalijakaumaa kuin toinen. Onko sillä merkitystä, kun käytät näitä testejä todellisiin tietoihin? Ei! Ei, kun n on kohtuullisen suuri.
- Lisähuomautuksena pariliitoksen testi edellyttää rajoitettua näytekokoa, joka sinulla pitäisi olla, jos kaikki tiedot voidaan yhdistää pariksi. Parittamaton testi on kuitenkin voimassa epätasaisten näytekokojen kanssa. Joten parittomalla testillä on n + m-2 vapausastetta.
- Vastauksesi on pitkä ja abstrakti ja yritin kahlata sen läpi, mutta en ’ ei ymmärrä vasta-esimerkkiä. En vain ’ näe, missä otat nollahypoteesin ja todelliset tiedot huomioon. Havaittu p-arvo on testitilastolle asianmukaisen t-jakauman integraali, kun otetaan huomioon tiedot. Verrataan näitä kahta t-jakaumaa ja samaa yhteistä tietojoukkoa. Jos ehdoitat havaittuja tietoja, näillä tasaisilla jakaumilla ei ole merkitystä. Olen pahoillani, mutta en ’ näe, että vastauksesi todella vastaa kysymykseesi.
- Michael: keskity vain antamaani R-koodiin. Ajo kestää vain sekunnin. Nollahypoteesi on, että X ja Y tulevat samasta normaalijakaumasta, mikä on tietysti villisti väärä tapauksessani. Esimerkissäni Cov (X, Y) > 0 ja silti parittamaton testi antaa enemmän merkitystä kuin pariliitetty testi.
Vastaus
Tarjoan toisen näkökulman. Usein pariliitos vähennetään ennakkoluuloja. Oletetaan, että olet kiinnostunut siitä, onko altistuminen E riskitekijä jatkuvalle tulokselle Y. Jokaiselle E + -kohteelle saat ikä- ja sukupuolitutkittavan kohteen, joka on E-. Nyt voimme tehdä joko paritetun t-testin tai parittoman t-testin. Mielestäni meidän pitäisi selittää täsmäys nimenomaisesti ja suorittaa pariliitetty t-testi. Se on periaatteellisempi, koska siinä otetaan huomioon muotoilu. Otetaanko vastaavuus huomioon analyysissä on kysymys bias-varianssi-kompromissista. Analyysin vastaavuuksien huomioon ottaminen antaa enemmän suojaa harhaa vastaan, mutta voi lisätä varianssia. Parittoman t-testin suorittaminen voi olla tehokkaampaa, mutta se ei tarjoa mitään suojaa ennakkoluuloja vastaan.
Vastaa