Sparowany a niesparowany test t
On 31 stycznia, 2021 by adminZałóżmy, że mam 20 myszy. W jakiś sposób łączę myszy w pary, dzięki czemu otrzymuję 10 par. Na potrzeby tego pytania może to być losowe połączenie LUB może to być rozsądne połączenie, na przykład próba sparowania myszy z tego samego miotu, tej samej płci, o podobnej wadze, LUB może to być celowo głupie połączenie, na przykład próbując łączyć myszy z tak nierównymi wagami, jak to tylko możliwe. Następnie używam liczb losowych, aby przypisać jedną mysz z każdej pary do grupy kontrolnej, a drugą do grupy, która ma być leczona. Teraz przeprowadzam eksperyment, leczę tylko myszy, które mają być leczone, ale poza tym nie zwracam żadnej uwagi na poczynione przygotowania.
Analizując wyniki, można użyć t- testowanie lub sparowane testy t. W jaki sposób, jeśli w ogóle, odpowiedzi będą się różnić? (Zasadniczo interesują mnie systematyczne różnice każdego parametru statystycznego, który należy oszacować).
Powodem, dla którego o to pytam, jest to, że artykuł, z którym ostatnio się pracowałem, został skrytykowany przez biologa za użycie raczej test t niż niesparowany test t. Oczywiście w rzeczywistym eksperymencie sytuacja nie była tak ekstremalna, jak sytuacja, którą naszkicowałem i moim zdaniem były dobre powody do parowania. Ale biolog nie zgodził się z tym.
Wydaje mi się, że nie można nieprawidłowo poprawić istotności statystycznej (zmniejszyć wartość p), w okolicznościach, które naszkicowałem, używając sparowanego testu t , a nie niesparowany test, nawet jeśli parowanie jest niewłaściwe. Może to jednak pogorszyć istotność statystyczną, jeśli myszy byłyby źle sparowane. Czy to prawda?
Odpowiedź
Zgadzam się z uwagami przedstawionymi przez Franka i Piotra, ale myślę, że istnieje prosta formuła to dociera do sedna problemu i może być warte rozważenia przez OP.
Niech $ X $ i $ Y $ będą dwiema zmiennymi losowymi, których korelacja jest nieznana.
Niech $ Z = XY $
Jaka jest wariancja $ Z $?
Oto prosta formuła: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ Co jeśli $ \ text {Cov} (X, Y) > 0 $ (tj. $ X $ i $ Y $ są dodatnio skorelowane)?
Następnie $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. W tym przypadku, jeśli parowanie jest dokonywane z powodu dodatniej korelacji, na przykład gdy masz do czynienia z tym samym podmiotem przed i po interwencji, pomaga to, ponieważ niezależna różnica w parach ma mniejszą wariancję niż wariancja, którą otrzymujesz dla przypadku niesparowanego. Metoda redukowała wariancję. Test jest mocniejszy. Można to dramatycznie pokazać za pomocą danych cyklicznych. Widziałem w książce przykład, w którym chcieli sprawdzić, czy temperatura w Waszyngtonie jest wyższa niż w Nowym Jorku. Przyjmowali więc średnią miesięczną temperaturę w obu miastach przez powiedzmy 2 lata. Oczywiście ze względu na cztery pory roku istnieje ogromna różnica w ciągu roku. Ta zmienność jest zbyt duża, aby niesparowany test t mógł wykryć różnicę. Jednak parowanie oparte na tym samym miesiącu w tym samym roku eliminuje ten efekt sezonowy, a sparowany test $ t $ wyraźnie wykazał, że średnia temperatura w DC była zwykle wyższa niż w Nowym Jorku. $ X_i $ (temperatura w Nowym Jorku w miesiącu $ A $) i $ Y_i $ (temperatura w DC w miesiącu $ A $) są dodatnio skorelowane, ponieważ pory roku są takie same w Nowym Jorku i Waszyngtonie, a miasta są na tyle blisko, że często doświadczają tych samych systemów pogodowych, które wpływają na temperaturę. DC może być trochę cieplejsze, ponieważ jest dalej na południe.
Zauważ, że im większa kowariancja lub korelacja, tym większa redukcja wariancji.
Teraz załóżmy, że $ \ text {Cov} (X, Y) $ jest ujemne.
Następnie $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Teraz parowanie będzie gorsze niż brak parowania, ponieważ wariancja jest faktycznie zwiększona!
Gdy $ X $ i $ Y $ są nieskorelowane, prawdopodobnie nie ma znaczenia, której metody użyjesz . Przypadek losowego parowania Petera jest podobny do tej sytuacji.
Komentarze
- Michael, ponieważ ” < ” i ” > ” mają specjalne znaczenie na stronach internetowych, aby uniknąć sytuacji, w których duże fragmenty tekstu po prostu znikają z widoku, jest istotne , użyj dla nich znaczników $ \ TeX $ w równaniach (kody to ” \ lt ” i ” \ gt ” odpowiednio). Oznaczyłem dwa równania, które spowodowały ten problem.W przyszłości przeczytaj, co publikujesz natychmiast po opublikowaniu, aby upewnić się, że ludzie widzą to, co Twoim zdaniem mogą zobaczyć, a następnie możesz zgłosić swój post do uwagi moderatora, jeśli wystąpi jakiś problem ze znacznikami.
- @whuber Dziękuję. Generalnie sprawdzam w trakcie i po wysyłaniu postów, ponieważ uważam, że bardzo psuję równania, zwłaszcza podczas indeksowania. Opuszczenie tego jest niezwykłe i prawdopodobnie zdarzyło się, ponieważ był to długi post i po prostu beztrosko przeszedłem do czegoś innego, co chciałem lub musiałem zrobić. Czasami rozprasza mnie telefon i zapominam sprawdzić. Odnośnie specjalnych symboli, które powodują znikanie tekstu w poście, zauważyłem to. Myślę, że prostym rozwiązaniem jest pozostawienie spacji po symbolu. Myślę, że w przeszłości to działało.
- +1, naprawdę na miejscu. Zwróć uwagę, że jeśli $ X $ & $ Y $ są całkowicie nieskorelowane w twojej próbce , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick W przypadku, gdy Cov (X, Y) < 0, mam pytanie: Jeśli moim celem jest wywnioskowanie E [X] -E [Y] z mojego eksperymentu, to NAWET MYŚLI przeprowadziłem badanie parowane, kiedy analizuję moje dane, nadal mogę UDAWAĆ, że wynik mojego eksperymentu jest realizacją NIEPAROWEGO randomizowanego eksperyment. Mogę to zrobić? Ponieważ jeśli naprawdę przeprowadziłeś niesparowany losowy eksperyment, możesz dosłownie uzyskać ten sam wynik. Następnie mogę po prostu wziąć średnią z każdej grupy (zignorować parowanie) i wziąć różnicę średniej z dwóch grup. Jest to nieobciążony estymator E [Z]. Dla wariancji mojego estymatora po prostu używam …
- @MichaelChernick przykładowej wariancji grupy X i grupy Y i podsumowuję je
Odpowiedź
Zamiast parowania, prawdopodobnie lepiej jest zrozumieć podstawowy model danych. Jeśli parowanie ma na celu poradzenie sobie z niekontrolowaną heterogenicznością, zazwyczaj (z wyjątkiem badań bliźniaków) parowanie tylko częściowo kontroluje to źródło zmienności i regresja wielokrotna byłaby lepsza. Dzieje się tak, ponieważ dopasowywanie zmiennych ciągłych często skutkuje resztkową zmiennością, ponieważ nie jesteśmy w stanie przeprowadzić dokładnego dopasowania takich zmiennych.
Komentarze
- Jeśli wszyscy powinni robić regresję, dlaczego książki o projektowaniu eksperymentów, takie jak książka Davida Coxa ', podkreślają znaczenie parowania lub grupowania w eksperymentach biologicznych? Parowanie pozwala uniknąć ukrytego założenia o liniowej zależności wynikającej z regresji. Ale być może są inne powody: ktoś ??
Odpowiedź
Dwa testy (sparowany i niesparowany) zapytaj różne pytania, aby mogli uzyskać różne odpowiedzi. Prawidłowe parowanie prawie zawsze jest silniejsze niż niesparowane – o to właśnie chodzi w parowaniu. Skoro więc twierdzisz, że parowanie jest prawidłowe, jest prawdopodobne, że wartość p dla sparowanego testu jest niższa niż dla tych samych danych niesparowanych. Możesz oczywiście zrobić jedno i drugie i przekonać się samemu.
Dlatego odpowiedź na Twój dylemat jest merytoryczna, a nie statystyczna. Czy twoje parowanie jest prawidłowe?
Czy możesz uzyskać więcej znaczący wynik losowego parowania niż niesparowanego testu? Zobaczmy:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Tak, chociaż tutaj różnica jest bardzo mała, para miała niższy p. Uruchomiłem ten kod kilka razy. Nic dziwnego, że czasami jedno p jest niższe, czasami drugie, ale różnica we wszystkich przypadkach była niewielka. Jestem jednak pewien, że w niektórych sytuacjach różnica w wartościach p może być duża.
Komentarze
- Dziękuję za odpowiedź, ale moje pytanie zadane dla systematycznych różnic. Oczywiście na dłuższą metę x ' s i y ' s, x i y czasami wyglądają tak, jakby były bardzo dobrze sparowane i czasami tak, jakby zostały celowo źle sparowane. Z pewnością ' jest statystycznym pytaniem, czy przy losowym wyborze xiy rozkład wartości p jest taki sam w obu testach. Przypuszczam, że nie ' nie powinno być zbyt trudne dla kogoś, kto zna więcej teoretycznych statystyk niż ja, aby faktycznie obliczyć dwa teoretyczne rozkłady wartości p. Domyślam się, że są takie same.
- W rzeczywistym przypadku, w którym brałem udział, wartość p dla pary niesparowanej wynosiła około 0,04, a dla sparowanego 0,001. Według krytycznego biologa powinniśmy zacytować 0,04. Według mnie poprawa wartości p silnie wskazuje, że nasze parowanie było prawidłowe. Twierdzę, że w statystykach pojawia się obiektywne pytanie, z obiektywną odpowiedzią, i że ' to nie tylko kwestia dobrego osądu biologicznego co do ważności danego połączenia – – ta ostatnia wydaje się być opinią Petera Floma i krytycznego biologa.
- Myślę, że statystyki mówią wszystko.Oba wyniki powinny zostać ujawnione, ale dopóki dane są poprawne, a korelację można wyjaśnić, test par jest dokładniejszy, ponieważ bierze pod uwagę korelację.
Odpowiedź
Teraz znacznie lepiej rozumiem, co mnie martwiło w sparowanych i niesparowanych testach t oraz związanych z nimi wartościach p. Dowiedzenie się było ciekawą podróżą, która przyniosła wiele niespodzianek. Jedna niespodzianka wynikła z dochodzenia w sprawie wkładu Michaela. Jest to bez zarzutu pod względem praktycznych porad. Co więcej, mówi to, w co sądzę, że prawie wszyscy statystycy wierzą, i ma kilka pozytywnych głosów na poparcie tego. Jednak jako część Teoria nie jest dosłownie poprawna. Odkryłem to, opracowując wzory na wartości p, a następnie dokładnie zastanawiając się, jak używać wzorów, aby prowadzić do kontrprzykładów. Jestem matematykiem z wykształcenia, a kontrprzykład jest kontrprzykładem dla „matematyka”. Nie jest to coś, na co można się natknąć w statystykach praktycznych, ale to coś, o czym próbowałem się dowiedzieć, pytając o oryginał pytanie.
Oto kod R, który daje kontrprzykład:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Zwróć uwagę na następujące cechy: X i Y to dwie 10-krotne, których różnica jest ogromna i prawie stała. Dla wielu znaczących liczb korelacja wynosi 1.000 … Wartość p dla testu niesparowanego jest około 10 ^ 40 razy mniejsza niż wartość p dla testu sparowanego. Jest to więc sprzeczne z opisem Michaela, pod warunkiem, że czyta się jego relację dosłownie, po matematyce. Tutaj kończy się część mojej odpowiedzi związana z odpowiedzią Michaela.
Oto myśli, które podpowiedział Odpowiedź Piotra. Podczas omawiania mojego pierwotnego pytania przypuszczałem w komentarzu, że dwa szczególne rozkłady wartości p, które brzmią inaczej, są w rzeczywistości takie same. Teraz mogę to udowodnić. Co ważniejsze, dowód ujawnia podstawowa natura wartości p, tak fundamentalna, że żaden tekst (na który się natknąłem) nie zawraca sobie głowy wyjaśnieniem. Może wszyscy profesjonalni statystycy znają sekret, ale dla mnie definicja wartości p zawsze wydawała się dziwna i sztuczna. Zanim zdradzę tajemnicę statystyki, sprecyzuję pytanie.
Niech $ n > 1 $ i wybierz losowo i niezależnie dwa losowe $ n $ – krotek z jakiegoś rozkładu normalnego. Istnieją dwa sposoby uzyskania wartości p z tego wyboru. Jeden to użycie niesparowanego testu t, a drugi to sparowany test t. Moje przypuszczenie było takie, że rozkład p -wartości, które otrzymujemy, są takie same w obu przypadkach. Kiedy po raz pierwszy zacząłem o tym myśleć, zdecydowałem, że to przypuszczenie było nierozsądne i fałszywe: niesparowany test jest powiązany ze statystyką t na 2 $ (n-1 ) $ stopnie swobody i sparowany test ze statystyką t dla $ n-1 $ stopni swobody. Te dwa rozkłady są różne, więc jak u licha związane z nimi rozkłady wartości p mogą być takie same? zastanowiłem się dalej, czy zdałem sobie sprawę, że to oczywiste odrzucenie mojego przypuszczenia było zbyt łatwe.
Odpowiedź pochodzi z następujących rozważań: Załóżmy, że $ f: (0, \ infty) \ to (0, \ infty) $ jest ciągłym pdfem (to znaczy, że jego całka ma wartość jeden). Zmiana współrzędnych konwertuje powiązany rozkład na rozkład równomierny na $ [0,1] $. Formuła to $$ p = \ int_t ^ \ infty f (s) \, ds $$ i to jest wyjaśnione w wielu tekstach. To, czego teksty nie wskazują w kontekście wartości p, to to, że jest to dokładnie wzór, który podaje wartość p ze statystyki t, gdy $ f $ jest plikiem pdf dla t -dystrybucja. (Staram się, aby dyskusja była tak prosta, jak tylko potrafię, ponieważ jest naprawdę prosta. Pełniejsza dyskusja traktuje jednostronne i dwustronne testy t nieco inaczej, mogą wystąpić czynniki 2, a statystyka t może leżeć w $ (- \ infty, \ infty) $ zamiast w $ [0, \ infty) $. Pomijam cały ten bałagan.)
Dokładnie ta sama dyskusja dotyczy znalezienia wartości p powiązane z jakimkolwiek innym standardowym rozkładem w statystykach. Ponownie, jeśli dane są rozłożone losowo (tym razem według innego rozkładu), wynikowe wartości p zostaną rozłożone równomiernie w $ [0,1] $.
Jak to się ma do naszych sparowanych i niesparowanych testów t? Chodzi o sparowany test t, z próbami wybranymi niezależnie i losowo, tak jak w moim kodzie powyżej, wartość t rzeczywiście jest zgodna z Rozkład t (z $ n-1 $ stopniami swobody). Zatem wartości p, które wynikają z wielokrotnego powtórzenia wyboru X i Y, są zgodne z rozkładem jednostajnym na $ [0,1] $. To samo jest tr ue dla niesparowanego testu t, chociaż tym razem rozkład t ma 2 $ (n-1) $ stopnie swobody. Niemniej jednak otrzymane wartości p mają również równomierny rozkład na [0,1] $, zgodnie z ogólnym argumentem, który podałem powyżej.Jeśli powyższy kod Petera zostanie zastosowany do określenia wartości p, to otrzymamy dwie różne metody losowania próbki z rozkładu jednorodnego na $ [0,1] $. Jednak te dwie odpowiedzi nie są niezależne.
Komentarze
- Nie ' nie sądzę, że wartość p ma jakieś tajemnicze sekcje. Niektórzy ludzie mają Jest to trudny czas. Jest to prawdopodobieństwo zaobserwowania wartości jako skrajnej lub bardziej ekstremalnej niż to, co faktycznie zaobserwowano, gdy hipoteza zerowa jest PRAWDA. Myślę, że masz rację w jednej ze swoich formuł. Myślę, że stwierdziłeś, że p- wartości są równomiernie rozłożone. Tak, zgadzam się z tym, gdy hipoteza zerowa jest prawdziwa. Pamiętaj, że w przypadku testu t hipoteza zerowa może nie być prawdziwa. Wtedy wartość p nie jest jednolita. Powinna być skoncentrowana bliżej 0.
- Po drugie, mówimy o dwóch różnych statystykach testowych. Jedna jest oparta na parowaniu, a druga w twoim przykładzie. Czy wspomniałem o tym w mojej odpowiedzi, czy nie niesparowany test t ma centralny rozkład t z 2n-2 stopniami swobody, podczas gdy odpowiadający mu rozkład t dla sparowanego testu t ma n-1 stopni swobody. Zatem ten z większą liczbą stopni swobody jest bliższy standardowemu rozkładowi normalnemu niż drugi. Czy to ma znaczenie, kiedy stosujesz te testy do prawdziwych danych? Nie! Nie, gdy n jest dostatecznie duże.
- Na marginesie, ograniczenie sparowanego testu wymaga równej wielkości próbki, którą powinieneś mieć, jeśli wszystkie dane mogą być sparowane. Ale test niesparowany jest ważny dla nierównych rozmiarów próbek. Generalnie test bez par ma n + m-2 stopni swobody.
- Twoja odpowiedź jest długa i abstrakcyjna. Próbowałem się przez nią przebrnąć, ale nie ' nie rozumiem kontrprzykładu. Po prostu nie ' nie widzę, gdzie bierzesz pod uwagę hipotezę zerową i rzeczywiste dane. Zaobserwowana wartość p jest całką odpowiedniego rozkładu t dla statystyki testowej dla danych. Porównujesz te liczby dla dwóch rozkładów t i tego samego wspólnego zbioru danych. Jeśli uzależnisz od obserwowanych danych, te jednolite rozkłady nie odgrywają żadnej roli. Przykro mi, ale nie ' nie widzę, że twoja odpowiedź naprawdę odpowiada na twoje pytanie.
- Michael: skoncentruj się na kodzie R, który podałem. Uruchomienie zajmuje tylko sekundę. Hipoteza zerowa jest taka, że X i Y pochodzą z tego samego rozkładu normalnego, co jest oczywiście w moim przypadku szalenie fałszywe. W moim przykładzie Cov (X, Y) > 0, a mimo to test bez par ma większe znaczenie niż test z parami.
Odpowiedź
Przedstawiłbym inną perspektywę. Często parowanie zmniejsza błąd stronniczości. Załóżmy, że interesuje Cię, czy ekspozycja E jest czynnikiem ryzyka dla ciągłego wyniku Y. Dla każdego podmiotu E + otrzymujesz osobę dopasowaną pod względem wieku i płci, która jest E-. Teraz moglibyśmy przeprowadzić sparowany test t-Studenta lub niesparowany test t-Studenta. Myślę, że powinniśmy wyraźnie uwzględnić dopasowanie i przeprowadzić test t-Studenta dla par. Jest bardziej pryncypialny, ponieważ bierze pod uwagę projekt. To, czy w analizie uwzględnić dopasowanie, jest kwestią kompromisu między odchyleniem a odchyleniem. Uwzględnienie dopasowania w analizie zapewnia lepszą ochronę przed uprzedzeniami, ale może zwiększyć wariancję. Wykonanie niesparowanego testu t może być bardziej wydajne, ale nie zapewni żadnej ochrony przed uprzedzeniami.
Dodaj komentarz