Kuinka t-testiä voidaan käyttää tietoryhmien välisten jakaumien vertaamiseen?
On helmikuu 10, 2021 by adminYmmärrän, että t-testiä käytetään kahden populaation keskiarvojen eron testaamiseen, kun populaatioiden varianssit ovat suhteellisen samanlaiset, yksiköt ovat riippumattomia ja ne ovat normaaleja (varsinkin pienemmillä näytekokoilla).
Mietin kuitenkin, kuinka t-testejä käytetään tarkastelemaan kahden ryhmän välisen tiedon jakauman eroa? Kysyn tätä, koska se on pohjimmiltaan lause, jota kysymys, johon yritän vastata. Se pyytää vertailemaan, ovatko kiinnostavan kohteen jakaumat erilaiset, käyttämällä t-testiä.
Hämmennyttäni on, vaikka ymmärränkin, että keskiarvo on jakauman tulo, ja poikkeamat voivat vaikuttaa voimakkaasti t-testeihin, joten t-testi saattaa antaa tietoja kahdesta jakaumasta, voi olla tapaus, jossa molemmat jakaumat olivat hyvin samankaltaisia, mutta vaikutuksen koko oli suuri yksinkertaisesti siksi, että ne keskittyivät eri tavoin, ja saattoi olla tapaus, jossa nämä kaksi jakelua näyttivät funkyilta, eroerot ja muut, ja mikä voisi johtaa sama t-stat. Joten miten voisit kertoa mitään t-testistä?
Kommentit
- Kun kirjoitat, t-testit vertaavat keskiarvoja. Se on yksi jakelun osa. T-testit eivät vertaa variansseja, vinoutta, kurtoosia tai muita jakautumisen näkökohtia. Kerro meille, mitä yrität verrata.
- Se ' on hyvä kysymys: monet ihmiset, jotka eivät ole yhtä perehtyneitä tilastollisiin ideoihin kuin heidän pitäisi käytä (tai luulet olevasi) käyttävät usein lauseita, kuten " käytä t-testiä kahden jakauman vaikka tässä verrataan jakaumia (tai populaatioita) vain äärimmäisen rajoitetussa merkityksessä verrattaessa niiden keskiarvoja. Siten, kun t-testi hylkää hypoteesin yhtäläisistä keskiarvoista, a fortiori jakaumat eroavat toisistaan; mutta monissa tapauksissa t-testi ei hylkää hypoteesia (ehkä siksi, että keskiarvot ovat todella samat), vaikka jakaumat olisivat muuten hyvin erilaisia.
- Oletuksilla, jotka tehdään jakauman johtamiseksi testitilaston nollan alapuolella tavanomainen varianssi-t-testi on todellakin jakaumien vertailu, koska ainoa tapa, jolla jakaumat voivat sitten erota, on eri tavalla.
vastaus
Kahden näytteen t-testin tyypillinen asetus on:
$$ X_1, \ dots, X_n \ overset {iid} \ sim N (\ mu_x, \ sigma ^ 2) $$
$$ Y_1, \ dots, Y_m \ overset {iid} \ sim N (\ mu_x + \ delta, \ sigma ^ 2) $$
$ $ H_0: \ delta = 0 $$
$$ H_a: \ delta \ ne0 $$
$$ \ text {(Tai tee se yksipuolisesti.)} $$
Tällä asetuksella voit havaita, että t wo erilaista jakaumaa, ainoa tapa siihen tapahtuu, jos ne eroavat keskiarvosta.
Sitten saatat haluta sanoa, että varianssit ovat epätasaisia, tai ainakin sallia tämän mahdollisuuden ja testata sitten keskiarvoa eroja joka tapauksessa. Ne saavat Welchin testin … joka testaa edelleen vain keskiarvojen eroja. Varianssissa voi olla ero, ja se voi olla mielenkiintoisempi kuin keskiarvojen ero, mutta Welchin testi ei saisi tarttua varianssieroihin.
R: n simulaatio vahvistaa tämän.
set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times
$ 0.1 $ -tasolla hylkäämme noin 10% ajasta ja $ 0.05 $ -taso, hylkäämme noin 5% ajasta. Tämä on melko suuri otoskoko, 1000, joten jopa pieniä eroja pitäisi löytää, mutta ne eivät ole . Joten olet oikeassa, että t-testi ei tee paljon sinulle, jos haluat tutkia eroja, jotka eivät ole vain keskiarvoja.
Muutkin ovat kuitenkin huomanneet tämän ja siellä ovat testejä jakaumaeroille yleensä. Klassinen täydellinen jakautumistesti on Kolmogorov-Smirnnov (KS) -testi. Siinä tutkitaan kahden (empiirisen) CDF: n suurin (teknisesti ylin) pystysuora etäisyys. KS-testillä tiedetään olevan valta puuttua hylkäämään eroja, jotka löytyvät pyrstöistä, mutta se on edelleen suosittu testi. Jotkut toiset sisältävät Anderson-Darlingin ja Kuiperin. Jotkut simulaatioilla leikkivät osoittavat minulle, että Kuiper on paras näissä kolmessa pyrstöerojen havaitsemisessa, vaikka en ole ollut erityisen perusteellinen tutkimani asiaa.
Se, mitä päätät tutkia, riippuu siitä, mitä haluat tietää. Ehkä se on tarpeeksi hyvä, jotta tiedät, että keinot ovat erilaiset, jolloin t-testaus tai Welch-testaus voi olla täysin hieno!
vastaus
vastasi osittain kommenteissa:
Kun kirjoitat, t-testit vertaavat keskiarvoja. Se on yksi jakelun osa. T-testit eivät vertaa variansseja, vinoutta, kurtoosia tai muita jakautumisen näkökohtia. Kerro meille, mitä yrität verrata.
– Peter Flom
Se on hyvä kysymys: monet ihmiset, jotka eivät ole yhtä perehtyneitä tilastollisiin ideoihin kuin heidän pitäisi olla (tai luulevat olevansa), käyttävät usein lauseita, kuten ”käytä t-testiä kahden jakauman testaamiseen [tai vertailuun]”. vaikka tässä verrataan jakaumia (tai populaatioita) vain niiden keskiarvojen vertailun äärimmäisen rajoitetussa merkityksessä.Joten kun t-testi hylkää hypoteesin yhtäläisistä keskiarvoista, varsinkin jakaumat eroavat toisistaan; mutta monissa tapauksissa t-testi ei hylkää hypoteesi (ehkä siksi, että keskiarvot ovat todella samat), vaikka jakaumat olisivat muuten hyvin erilaiset.
– whuber
Oletusten kanssa, jotka tehdään testitilaston jakauman johtamiseksi nollan alapuolella , tavallinen yhden varianssin t-testi on todellakin vertailu jakelu, koska onl y tapa, jolla jakaumat voivat tällöin erota, tarkoittaa eri tavalla.
– Glen_b
Vastaa