Teste t pareado versus não pareado
On Janeiro 31, 2021 by adminSuponha que eu tenha 20 ratos. Eu pareio os ratos de alguma forma, de modo que obtenha 10 pares. Para o propósito desta pergunta, pode ser um emparelhamento aleatório OU pode ser um emparelhamento sensato, como tentar emparelhar camundongos da mesma ninhada, do mesmo sexo, com peso semelhante, OU pode ser um emparelhamento deliberadamente estúpido como tentando emparelhar ratos com pesos tão desiguais quanto poderiam ser. Em seguida, uso números aleatórios para atribuir um mouse em cada par ao grupo de controle e o outro mouse ao grupo a ser tratado. Agora faço o experimento, tratando apenas os camundongos a serem tratados, mas de outra forma não prestando nenhuma atenção aos arranjos que acabamos de fazer.
Quando se trata de analisar os resultados, pode-se usar t- teste ou teste t emparelhado. De que forma, se houver, as respostas serão diferentes? (Estou basicamente interessado nas diferenças sistemáticas de qualquer parâmetro estatístico que precise ser estimado.)
A razão de eu perguntar isso é que um artigo no qual estive recentemente envolvido foi criticado por um biólogo por usar um par teste t em vez de um teste t desemparelhado. Claro, no experimento real, a situação não era tão extrema quanto a situação que esbocei, e havia, em minha opinião, boas razões para o emparelhamento. Mas o biólogo não concordou.
Parece-me que não é possível melhorar incorretamente a significância estatística (diminuir o valor p), nas circunstâncias que esbocei, usando um teste t pareado , em vez de um teste desemparelhado, mesmo que seja inapropriado emparelhar. No entanto, poderia piorar a significância estatística se os ratos fossem mal pareados. Está certo?
Resposta
Concordo com os pontos que Frank e Peter fazem, mas acho que há uma fórmula simples isso vai ao cerne da questão e pode valer a pena para o OP considerar.
Sejam $ X $ e $ Y $ duas variáveis aleatórias cuja correlação é desconhecida.
Seja $ Z = XY $
Qual é a variação de $ Z $?
Aqui está a fórmula simples: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ E se $ \ text {Cov} (X, Y) > 0 $ (ou seja, $ X $ e $ Y $ são positivamente correlacionados)?
Então $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. Nesse caso, se o emparelhamento for feito devido à correlação positiva, como quando você está lidando com o mesmo assunto antes e depois da intervenção, o emparelhamento ajuda porque a diferença emparelhada independente tem variância menor do que a variância obtida para o caso não emparelhado. O método reduziu a variância. O teste é mais poderoso. Isso pode ser dramaticamente mostrado com dados cíclicos. Eu vi um exemplo em um livro em que eles queriam ver se a temperatura em Washington DC é mais alta do que em Nova York. Então, eles mediram a temperatura média mensal em ambas as cidades por, digamos, 2 anos. Claro que há uma grande diferença ao longo do ano por causa das quatro estações. Esta variação é muito grande para um teste t não pareado detectar uma diferença. No entanto, o emparelhamento com base no mesmo mês no mesmo ano elimina esse efeito sazonal e o teste $ t $ emparelhado mostrou claramente que a temperatura média em DC tendia a ser mais alta do que em Nova York. $ X_i $ (temperatura em NY no mês $ A $) e $ Y_i $ (temperatura em DC no mês $ A $) estão positivamente correlacionados porque as estações são as mesmas em NY e DC e as cidades estão próximas o suficiente para que isso aconteça experimente os mesmos sistemas climáticos que afetam a temperatura. DC pode ser um pouco mais quente porque está mais ao sul.
Observe que quanto maior a covariância ou correlação, maior é a redução na variância.
Agora suponha que $ \ text {Cov} (X, Y) $ seja negativo.
Então $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. Agora, emparelhar será pior do que não emparelhar porque a variância é realmente aumentada!
Quando $ X $ e $ Y $ não estão correlacionados, provavelmente não importa qual método você usa . O caso de emparelhamento aleatório de Peter é semelhante a esta situação.
Comentários
- Michael, porque ” < ” e ” > ” têm significados especiais em páginas da Web, para evitar que grandes partes do seu texto simplesmente desapareçam de sua vista, é essencial que você use a marcação $ \ TeX $ para eles nas equações (os códigos são ” \ lt ” e ” \ gt ” respectivamente). Marquei as duas equações que causaram esse problema para você.No futuro, leia o que você postar imediatamente após postar para ter certeza de que as pessoas estão vendo o que você pensou que veriam e, em seguida, fique à vontade para sinalizar sua postagem para atenção do moderador se houver algum problema com a marcação.
- @whuber Obrigado. Eu geralmente verifico durante e depois de postar, porque acho que bagunço muito as equações, especialmente quando estou inscrevendo. Perder este é incomum e provavelmente aconteceu porque era um post longo e eu simplesmente fui descuidadamente para outra coisa que eu queria ou precisava fazer. Às vezes um telefonema me distrai e me esqueço de verificar. Em relação a símbolos especiais que fazem com que o texto desapareça em uma postagem, observei isso. Acho que uma solução simples é deixar um espaço após o símbolo. Acho que funcionou para mim no passado.
- +1, realmente no ponto. Observe que se $ X $ & $ Y $ não estão perfeitamente correlacionados em sua amostra , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick Para o caso quando Cov (X, Y) < 0, eu tenho um pergunta: Se meu objetivo é inferir E [X] -E [Y] do meu experimento, MESMO QUE eu tenha conduzido um estudo pareado, quando analiso meus dados, ainda posso FINGIR que o resultado do meu experimento é uma realização de UNPAIRED randomizado experimentar. Posso fazer isso? Porque se você realmente fez um experimento aleatório desemparelhado, pode obter literalmente o mesmo resultado. Então, posso apenas pegar a média de cada grupo (ignorar o material de emparelhamento) e tirar a diferença da média dos dois grupos. Este é um estimador imparcial de E [Z]. Para a variância do meu estimador, eu apenas uso …
- @MichaelChernick a variância da amostra do grupo X e do grupo Y e os somo
Resposta
Em vez de emparelhar, provavelmente é melhor entender o modelo de dados subjacente. Se o emparelhamento for feito para lidar com a heterogeneidade não controlada, geralmente (exceto em estudos com gêmeos) o emparelhamento controla apenas parcialmente essa fonte de variabilidade e a regressão múltipla seria melhor. Isso ocorre porque a correspondência em variáveis contínuas frequentemente resulta em variabilidade residual por não ser capaz de fazer correspondência exata em tais variáveis.
Comentários
- Se nós se todos deveriam estar fazendo regressão, por que os livros sobre Design Experimental, como o livro de David Cox ‘, enfatizam a importância de emparelhar ou agrupar em experimentos biológicos? O emparelhamento evita a suposição oculta de dependência linear acarretada na regressão. Mas talvez haja outros motivos: alguém ??
Resposta
Os dois testes (pareados e não pareados) perguntam perguntas diferentes para que possam obter respostas diferentes. O emparelhamento correto quase sempre é mais poderoso do que o não emparelhado – esse é realmente o objetivo do emparelhamento. Portanto, como você diz que o emparelhamento está correto, é provável que o valor p para seu teste emparelhado seja menor do que para os mesmos dados desemparelhados. Você poderia, é claro, fazer as duas coisas e ver por si mesmo.
Portanto, a resposta para o seu dilema é substantiva, não estatística. Seu par está certo?
Você poderia conseguir mais resultado significativo do emparelhamento aleatório do que de um teste desemparelhado? Vejamos:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Sim, você pode, embora aqui a diferença seja muito pequena, os pares tiveram a p inferior. Executei esse código várias vezes. Não surpreendentemente, às vezes um p é menor, às vezes o outro, mas a diferença era pequena em todos os casos. No entanto, tenho certeza de que em algumas situações a diferença nos valores de p pode ser grande.
Comentários
- Obrigado pela resposta, mas minha pergunta foi feita para diferenças sistemáticas . Obviamente, em uma longa execução de x ‘ se y ‘ s, x e y ocasionalmente parecem que estão muito bem pareados , e ocasionalmente como se eles tivessem sido deliberadamente mal emparelhados. Certamente é ‘ uma questão estatística se, ao escolher xey aleatoriamente, a distribuição dos valores p é a mesma nos dois testes. Suponho que não deva ‘ ser muito difícil para alguém que conhece mais estatística teórica do que eu calcular de fato as duas distribuições teóricas de valores p. Meu palpite é que eles são iguais.
- No caso real em que eu estava envolvido, o valor p para não emparelhado era em torno de 0,04 e para emparelhado 0,001. De acordo com o biólogo crítico, deveríamos estar citando 0,04. Na minha opinião, a melhoria no valor p indica fortemente que nosso emparelhamento era válido. Eu afirmo que há uma questão objetiva nas estatísticas aqui, com uma resposta objetiva, e que ‘ não é apenas uma questão de bom julgamento biológico quanto à validade do par específico – -este último parece ser a opinião de Peter Flom e do biólogo crítico.
- Acho que a estatística conta a história.Ambos os resultados devem ser divulgados, mas desde que os dados estejam corretos e a correlação possa ser explicada, o teste pareado é mais preciso porque leva a correlação em consideração.
Resposta
Agora eu entendo muito melhor o que estava me preocupando sobre testes t pareados e não pareados e valores p associados. Descobrir foi uma jornada interessante e muitas surpresas ao longo do caminho. Uma surpresa resultou de uma investigação da contribuição de Michael. Isso é irrepreensível em termos de conselhos práticos. Além disso, ele diz o que eu acho que praticamente todos os estatísticos acreditam, e ele tem vários votos positivos para apoiar isso. No entanto, como um pedaço de teoria, não é literalmente correto. Descobri isso elaborando as fórmulas para os valores p e, em seguida, pensando cuidadosamente como usar as fórmulas para levar a contra-exemplos. Sou um matemático por formação, e o contra-exemplo é o contra-exemplo de um “matemático”. “Não é algo que você encontraria em estatísticas práticas, mas era o tipo de coisa que eu estava tentando descobrir quando perguntei ao meu original pergunta.
Aqui está o código R que fornece o contra-exemplo:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Observe os seguintes recursos: X e Y são duas tuplas de 10 cuja diferença é enorme e quase constante. Para muitos algarismos significativos, a correlação é 1,000 …. O valor p para o teste não pareado é cerca de 10 ^ 40 vezes menor do que o valor p para o teste pareado. Portanto, isso contradiz o relato de Michael, contanto que alguém o leia literalmente, no estilo matemático. Aqui termina a parte da minha resposta relacionada à resposta de Michael.
Aqui estão os pensamentos solicitados por Resposta de Peter. Durante a discussão da minha pergunta original, conjecturei em um comentário que duas distribuições particulares de valores p que parecem diferentes são de fato as mesmas. Agora posso provar isso. O que é mais importante é que a prova revela a natureza fundamental de um valor p, tão fundamental que nenhum texto (que eu encontrei) se preocupa em explicar. Talvez todos os estatísticos profissionais conheçam o segredo, mas para mim, a definição de valor-p sempre me pareceu estranha e artificial. Antes de revelar o segredo do estatístico, deixe-me especificar a pergunta.
Deixe $ n > 1 $ e escolha aleatoriamente e independentemente dois $ n $ – tuplas de alguma distribuição normal. Existem duas maneiras de obter um valor p com esta escolha. Uma é usar um teste t não pareado e a outra é usar um teste t pareado. Minha conjectura era que a distribuição de p -valores que se obtém são os mesmos nos dois casos. Quando comecei a pensar sobre isso, decidi que essa conjectura tinha sido temerária e era falsa: o teste desemparelhado está associado a uma estatística t em $ 2 (n-1 ) $ graus de liberdade e o teste emparelhado para uma estatística t em $ n-1 $ graus de liberdade. Essas duas distribuições são diferentes, então, como na terra as distribuições associadas de valores p seriam as mesmas? Só depois de muito pensei mais, percebi que essa rejeição óbvia de minha conjectura era muito fácil.
A resposta vem das seguintes considerações. Suponha que $ f: (0, \ infty) \ to (0, \ infty) $ é um pdf contínuo (ou seja, sua integral tem valor um). Uma mudança de coordenadas converte a distribuição associada na distribuição uniforme em $ [0,1] $. A fórmula é $$ p = \ int_t ^ \ infty f (s) \, ds $$ e isso é explicado em muitos textos. O que os textos falham em apontar no contexto dos valores p é que esta é exatamente a fórmula que dá o valor p da estatística t, quando $ f $ é a fdp para o t -distribuição. (Estou tentando manter a discussão o mais simples possível, porque ela realmente é simples. Uma discussão mais completa trataria os testes t unilateral e bilateral de maneira um pouco diferente, fatores de 2 podem surgir e a estatística t pode estar em $ (- \ infty, \ infty) $ em vez de $ [0, \ infty) $. Omiti toda essa desordem.)
Exatamente a mesma discussão se aplica ao encontrar o valor p associado a qualquer uma das outras distribuições padrão nas estatísticas. Mais uma vez, se os dados forem distribuídos aleatoriamente (desta vez de acordo com alguma distribuição diferente), os valores p resultantes serão distribuídos uniformemente em $ [0,1] $.
Como isso se aplica aos nossos testes t pareados e não pareados? A questão está no teste t pareado, com amostras escolhidas de forma independente e aleatória, como no meu código acima, o valor de t realmente segue um distribuição t (com $ n-1 $ graus de liberdade). Portanto, os valores p que resultam da replicação da escolha de X e Y muitas vezes seguem a distribuição uniforme em $ [0,1] $. O mesmo é tr ue para o teste t não pareado, embora desta vez a distribuição t tenha $ 2 (n-1) $ graus de liberdade. No entanto, os valores de p resultantes também têm uma distribuição uniforme em $ [0,1] $, pelo argumento geral que dei acima.Se o código de Peter acima for aplicado para determinar os valores-p, obteremos dois métodos distintos para extrair uma amostra aleatória da distribuição uniforme em $ [0,1] $. No entanto, as duas respostas não são independentes.
Comentários
- Não ‘ não acho que o valor p tenha algum segredo misterioso. Algumas pessoas têm um momento difícil com isso. É a probabilidade de observar um valor tão extremo ou mais extremo do que o que foi realmente observado quando a hipótese nula é VERDADEIRA. Acho que você acertou em uma de suas fórmulas. Acho que você afirmou que p- os valores são distribuídos uniformemente. Sim, concordo com isso quando a hipótese nula for verdadeira. Lembre-se de que, com seu teste t, a hipótese nula pode não ser verdadeira. Então, o valor p não é uniforme. Deve ser concentrado mais perto de 0.
- Em segundo lugar, estamos falando de duas estatísticas de teste diferentes. Uma é baseada no emparelhamento e a outra não está em seu exemplo. Quer eu tenha mencionado isso em minha resposta ou não o teste t não pareado tem uma distribuição t central com 2n-2 graus de liberdade, enquanto a distribuição t correspondente para o teste t pareado tem n-1 graus de liberdade. Portanto, aquele com o maior número de graus de liberdade está mais próximo da distribuição normal padrão do que o outro. Isso importa quando você aplica esses testes a dados reais? Não! Não quando n é razoavelmente grande.
- Como observação lateral, uma limitação do teste emparelhado exige o mesmo tamanho de amostra, o que você deve ter se todos os dados puderem ser emparelhados. Mas o teste desemparelhado é válido com tamanhos de amostra desiguais. Portanto, em geral, o teste desemparelhado tem n + m-2 graus de liberdade.
- Sua resposta é longa e abstrata e tentei examiná-la, mas não ‘ não entendo o contra-exemplo. Eu apenas não ‘ não vejo onde você leva a hipótese nula e os dados reais em consideração. O valor p observado é o integral da distribuição t apropriada para a estatística de teste fornecida os dados. Você compara esses números para as duas distribuições t e o mesmo conjunto de dados comum. Se você condicionar os dados observados, essas distribuições uniformes não desempenham nenhum papel. Lamento, mas não ‘ não vejo se a sua resposta realmente responde à sua pergunta.
- Michael: concentre-se apenas no código-R que dei. Leva apenas um segundo para ser executado. A hipótese nula é que X e Y vêm da mesma distribuição normal, o que é, obviamente, extremamente falso no meu caso. No meu exemplo Cov (X, Y) > 0 e, no entanto, o teste desemparelhado dá mais significância do que o teste emparelhado.
Resposta
Eu ofereceria outra perspectiva. Freqüentemente, o emparelhamento é feito para reduzir o viés. Suponha que você esteja interessado em saber se a exposição E é um fator de risco para um resultado Y contínuo. Para cada sujeito E +, você obtém um sujeito de mesma idade e sexo que é E-. Agora, podemos fazer um teste t pareado ou um teste t não pareado. Acho que devemos considerar a correspondência explicitamente e realizar um teste t pareado. É mais baseado em princípios porque leva o design em consideração. Se levar em conta a correspondência na análise, é uma questão de compensação de viés-variância. A contabilização da correspondência na análise fornece mais proteção contra viés, mas pode aumentar a variância. Fazer um teste t desemparelhado pode ser mais eficiente, mas não forneceria nenhuma proteção contra preconceitos.
Deixe uma resposta