Prueba t emparejada versus no emparejada
On enero 31, 2021 by adminSupongamos que tengo 20 ratones. Emparejo los ratones de alguna manera, de modo que obtengo 10 pares. Para el propósito de esta pregunta, podría ser un emparejamiento aleatorio, O podría ser un emparejamiento sensato, como intentar emparejar ratones de la misma camada, del mismo sexo, con peso similar, O podría ser un emparejamiento deliberadamente estúpido como tratando de emparejar ratones con pesos tan desiguales como sea posible. Luego utilizo números aleatorios para asignar un ratón de cada par al grupo de control y el otro ratón al grupo que se va a tratar. Ahora hago el experimento, tratando solo a los ratones que van a ser tratados, pero por lo demás sin prestar atención en absoluto a los arreglos que se acaban de hacer.
Cuando se analizan los resultados, se puede usar t- pruebas o pruebas t pareadas. ¿De qué manera, si las hay, diferirán las respuestas? (Básicamente, estoy interesado en las diferencias sistemáticas de cualquier parámetro estadístico que deba estimarse).
La razón por la que pregunto esto es que un biólogo criticó un artículo en el que participé recientemente por utilizar un prueba t en lugar de una prueba t no emparejada. Por supuesto, en el experimento real, la situación no fue tan extrema como la situación que he esbozado y, en mi opinión, hubo buenas razones para emparejar. Pero el biólogo no estuvo de acuerdo.
Me parece que no es posible mejorar incorrectamente la significación estadística (disminuir el valor p), en las circunstancias que esbocé, mediante el uso de una prueba t emparejada , en lugar de una prueba no emparejada, incluso si no es apropiado emparejar. Sin embargo, podría empeorar la importancia estadística si los ratones estuvieran mal emparejados. ¿Es esto correcto?
Respuesta
Estoy de acuerdo con los puntos que hacen Frank y Peter, pero creo que hay una fórmula simple eso llega al meollo del problema y puede ser útil que el OP lo considere.
Sea $ X $ y $ Y $ dos variables aleatorias cuya correlación se desconoce.
Sea $ Z = XY $
¿Cuál es la variación de $ Z $?
Aquí está la fórmula simple: $$ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) – 2 \ text {Cov } (X, Y). $$ ¿Y si $ \ text {Cov} (X, Y) > 0 $ (es decir, $ X $ y $ Y $ están correlacionados positivamente)?
Entonces $ \ text {Var} (Z) \ lt \ text {Var} (X) + \ text {Var } (Y) $. En este caso, si el emparejamiento se realiza debido a una correlación positiva, como cuando se trata del mismo tema antes y después de la intervención, el emparejamiento ayuda porque la diferencia de pares independientes tiene una varianza menor que la varianza que obtiene para el caso no emparejado. El método redujo la varianza. La prueba es más poderosa. Esto se puede demostrar de forma espectacular con datos cíclicos. Vi un ejemplo en un libro donde querían ver si la temperatura en Washington DC es más alta que en la ciudad de Nueva York. Así que tomaron la temperatura mensual promedio en ambas ciudades durante, digamos, 2 años. Por supuesto, hay una gran diferencia a lo largo del año debido a las cuatro estaciones. Esta variación es demasiado grande para que una prueba t no apareada detecte una diferencia. Sin embargo, el emparejamiento basado en el mismo mes del mismo año elimina este efecto estacional y la prueba de $ t $ emparejada mostró claramente que la temperatura promedio en DC tendía a ser más alta que en Nueva York. $ X_i $ (temperatura en NY en el mes $ A $) y $ Y_i $ (temperatura en DC en el mes $ A $) están correlacionados positivamente porque las estaciones son las mismas en NY y DC y las ciudades están lo suficientemente cerca como para experimentan los mismos sistemas climáticos que afectan la temperatura. DC puede ser un poco más cálido porque está más al sur.
Tenga en cuenta que cuanto mayor es la covarianza o correlación, mayor es la reducción de la varianza.
Ahora suponga que $ \ text {Cov} (X, Y) $ es negativo.
Entonces $ \ text {Var} (Z) \ gt \ text {Var} (X) + \ text {Var} (Y) $. ¡Ahora el emparejamiento será peor que no emparejarlo porque la variación en realidad aumenta!
Cuando $ X $ y $ Y $ no están correlacionados, probablemente no importa qué método utilice . El caso de emparejamiento aleatorio de Peter es como esta situación.
Comentarios
- Michael, porque » < » y » > » tienen significados especiales en las páginas web, para evitar que grandes partes de su texto simplemente desaparezcan de su vista, es esencial que use el marcado $ \ TeX $ para ellos en ecuaciones (los códigos son » \ lt » y » \ gt » respectivamente). Marqué las dos ecuaciones que te causaron este problema.En el futuro, lea lo que publica inmediatamente después de publicarlo para asegurarse de que las personas vean lo que pensaba que verían, y luego siéntase libre de marcar su publicación para que el moderador preste atención si hay algún problema con el marcado.
- @whuber Gracias. Por lo general, compruebo durante y después de la publicación porque encuentro que estropeo mucho las ecuaciones, especialmente cuando estoy suscrito. Perderse esta es inusual y probablemente sucedió porque era una publicación larga y simplemente pasé descuidadamente a otra cosa que quería o necesitaba hacer. A veces, una llamada telefónica me distrae y me olvido de verificar. Con respecto a los símbolos especiales que hacen que el texto desaparezca en una publicación, lo he observado. Creo que una solución simple es asegurarse de dejar un espacio después del símbolo. Creo que me ha funcionado en el pasado.
- +1, realmente acertado. Tenga en cuenta que si $ X $ & $ Y $ no están perfectamente correlacionados en su muestra , $ \ text {Var} (Z) = \ text {Var} (X) + \ text {Var} (Y) $.
- @MichaelChernick Para el caso en el que Cov (X, Y) < 0, tengo un pregunta: Si mi objetivo es inferir E [X] -E [Y] de mi experimento, AUNQUE Hice un estudio emparejado, cuando analizo mis datos, aún puedo Fingir que el resultado de mi experimento es una realización de UNPAIRED aleatorio experimentar. ¿Puedo hacer esto? Porque si realmente hiciste un experimento aleatorio no emparejado, literalmente puedes obtener el mismo resultado. Entonces puedo tomar el promedio de cada grupo (ignorar las cosas de emparejamiento) y tomar la diferencia de la media de los dos grupos. Este es un estimador insesgado de E [Z]. Para la varianza de mi estimador, solo uso …
- @MichaelChernick la varianza muestral del grupo X y el grupo Y y los resumí
Respuesta
En lugar de emparejar, probablemente sea mejor comprender el modelo de datos subyacente. Si el emparejamiento se realiza para hacer frente a la heterogeneidad incontrolada, suele ocurrir (excepto en estudios de gemelos) que el emparejamiento solo controla parcialmente esta fuente de variabilidad y la regresión múltiple funcionaría mejor. Esto se debe a que la coincidencia en variables continuas con frecuencia da como resultado una variabilidad residual debido a que no podemos hacer una coincidencia exacta en dichas variables.
Comentarios
- Si todos deberían estar haciendo regresión, ¿por qué los libros sobre diseño experimental, como el libro de David Cox ‘, enfatizan la importancia de emparejar o agrupar en experimentos biológicos? El emparejamiento evita el supuesto oculto de dependencia lineal que implica la regresión. Pero tal vez haya otras razones: ¿alguien ??
Responder
Las dos pruebas (emparejadas y no emparejadas) preguntan diferentes preguntas para que puedan obtener diferentes respuestas. El emparejamiento correcto casi siempre es más poderoso que el no emparejado; ese es realmente el punto del emparejamiento. Por lo tanto, dado que dice que el emparejamiento es correcto, es probable que el valor p de su prueba emparejada sea más bajo que para los mismos datos sin emparejar. Por supuesto, puede hacer ambas cosas y verlo por sí mismo.
Por lo tanto, la respuesta a su dilema es sustantiva, no estadística. ¿Es correcta su combinación?
¿Podría obtener una respuesta más ¿Un resultado significativo de un emparejamiento aleatorio que de una prueba no emparejada? Veamos:
set.seed(2910110192) x <- rnorm(100, 10, 2) y <- rnorm(100, 10, 2) t.test(x, y) t.test(x, y, paired = T)
Sí, puede, aunque aquí la diferencia es muy pequeña, el emparejado tenía una p inferior. Ejecuté ese código varias veces. No es sorprendente que a veces una p sea menor, a veces la otra, pero la diferencia fue pequeña en todos los casos. Sin embargo, estoy seguro de que en algunas situaciones la diferencia en los valores p podría ser grande.
Comentarios
- Gracias por la respuesta, pero mi pregunta fue para las diferencias sistemáticas . Obviamente, a largo plazo de x ‘ sy y ‘ s, x e y ocasionalmente parecen estar muy bien emparejados , y ocasionalmente como si hubieran sido deliberadamente mal emparejados. Seguramente es ‘ una cuestión estadística si, al elegir xey al azar, la distribución de los valores p es la misma en las dos pruebas. Supongo que no debería ‘ ser demasiado difícil para alguien que conoce más estadísticas teóricas que yo calcular las dos distribuciones teóricas de valores p. Supongo que son iguales.
- En el caso real en el que estuve involucrado, el valor p para no emparejado fue de alrededor de .04 y para emparejado .001. Según el biólogo crítico, deberíamos citar .04. Según yo, la mejora en el valor p indica claramente que nuestro emparejamiento fue válido. Afirmo que hay una pregunta objetiva en las estadísticas aquí, con una respuesta objetiva, y que ‘ no es solo una cuestión de buen juicio biológico en cuanto a la validez de la pareja en particular: -esta última parece ser la opinión de Peter Flom y del biólogo crítico.
- Creo que las estadísticas cuentan la historia.Ambos resultados deben divulgarse, pero siempre que los datos sean correctos y se pueda explicar la correlación, la prueba emparejada es más precisa porque tiene en cuenta la correlación.
Respuesta
Ahora entiendo mucho mejor lo que me preocupaba acerca de las pruebas t emparejadas y no emparejadas, y los valores p asociados. Descubrirlo ha sido un viaje interesante y ha habido muchas sorpresas en el camino. Una sorpresa ha resultado de una investigación de la contribución de Michael. Esto es irreprochable en términos de consejos prácticos. Además, dice lo que creo que creen prácticamente todos los estadísticos, y tiene varios votos a favor para respaldar esto. Sin embargo, como parte de teoría, no es literalmente correcto. Descubrí esto elaborando las fórmulas para los valores p, y luego pensando cuidadosamente cómo usar las fórmulas para conducir a contraejemplos. Soy matemático por entrenamiento, y el contraejemplo es un «contraejemplo de matemático». No es algo que se pueda encontrar en las estadísticas prácticas, pero era el tipo de cosas que estaba tratando de averiguar cuando le pregunté a mi pregunta.
Aquí está el código R que da el contraejemplo:
vLength <- 10; meanDiff <-10^9; numSamples <- 3; pv <- function(vLength,meanDiff) { X <- rnorm(vLength) Y <- X - meanDiff + rnorm(vLength,sd=0.0001) Paired <- t.test(X,Y,var.equal=T,paired=T) NotPaired <- t.test(X,Y,var.equal=T,paired=F) c(Paired$p.value,NotPaired$p.value,cov(X,Y)) } ans <- replicate(numSamples,pv(vLength,meanDiff))
Tenga en cuenta las siguientes características: X e Y son dos 10 tuplas cuya diferencia es enorme y casi constante. Para muchas cifras significativas, la correlación es 1.000 … El valor p para la prueba no apareada es alrededor de 10 ^ 40 veces menor que el valor p para la prueba pareada. Así que esto contradice el relato de Michael, siempre que uno lea su relato literalmente, al estilo matemático. Aquí termina la parte de mi respuesta relacionada con la respuesta de Michael.
Aquí están los pensamientos propuestos por La respuesta de Peter. Durante la discusión de mi pregunta original, conjeturé en un comentario que dos distribuciones particulares de valores p que suenan diferentes son de hecho iguales. Ahora puedo probar esto. Lo que es más importante es que la prueba revela la naturaleza fundamental de un valor p, tan fundamental que ningún texto (con el que me he encontrado) se molesta en explicar. Quizás todos los estadísticos profesionales conozcan el secreto, pero para mí, la definición del valor p siempre me pareció extraña y artificial. Antes de revelar el secreto del estadístico, permítanme especificar la pregunta.
Deje $ n > 1 $ y elija aleatoria e independientemente dos $ n $ – tuplas de alguna distribución normal. Hay dos formas de obtener un valor p a partir de esta elección. Una es usar una prueba t no emparejada y la otra es usar una prueba t emparejada. Mi conjetura era que la distribución de p -los valores que se obtienen son los mismos en los dos casos. Cuando empecé a pensar en ello, decidí que esta conjetura había sido temeraria y falsa: la prueba no aparejada está asociada a una estadística t en $ 2 (n-1 ) $ grados de libertad, y la prueba pareada para un estadístico t en $ n-1 $ grados de libertad. Estas dos distribuciones son diferentes, entonces, ¿cómo diablos podrían ser iguales las distribuciones asociadas de los valores p? Sólo después de mucho Pensándolo bien, me di cuenta de que este obvio rechazo de mi conjetura era demasiado fácil.
La respuesta proviene de las siguientes consideraciones. Suponga $ f: (0, \ infty) \ to (0, \ infty) $ es un pdf continuo (es decir, su integral tiene valor uno). Un cambio de coordenadas convierte la distribución asociada en la distribución uniforme en $ [0,1] $. La fórmula es $$ p = \ int_t ^ \ infty f (s) \, ds $$ y esto se explica en muchos textos. Lo que los textos no señalan en el contexto de los valores p es que esta es exactamente la fórmula que da el valor p del estadístico t, cuando $ f $ es el pdf para t -distribución. (Estoy tratando de mantener la discusión lo más simple posible, porque en realidad es simple. Una discusión más completa trataría las pruebas t unilaterales y bilaterales de manera ligeramente diferente, podrían surgir factores de 2 y el estadístico t podría estar en $ (- \ infty, \ infty) $ en lugar de $ [0, \ infty) $. Omito todo ese desorden.)
Exactamente la misma discusión se aplica cuando se encuentra el valor p asociado con cualquiera de las otras distribuciones estándar en estadística. Una vez más, si los datos se distribuyen aleatoriamente (esta vez de acuerdo con alguna distribución diferente), los valores p resultantes se distribuirán uniformemente en $ [0,1] $.
¿Cómo se aplica esto a nuestras pruebas t emparejadas y no emparejadas? El punto está en la prueba t emparejada, con muestras elegidas de forma independiente y aleatoria, como en mi código anterior, el valor de t sigue un distribución t (con $ n-1 $ grados de libertad). Por lo tanto, los valores p que resultan de replicar la elección de X e Y muchas veces siguen la distribución uniforme en $ [0,1] $. Lo mismo es tr ue para la prueba t no apareada, aunque esta vez la distribución t tiene $ 2 (n-1) $ grados de libertad. Sin embargo, los valores p que resultan también tienen una distribución uniforme en $ [0,1] $, según el argumento general que di anteriormente.Si se aplica el código de Peter anterior para determinar los valores p, entonces obtenemos dos métodos distintos para extraer una muestra aleatoria de la distribución uniforme en $ [0,1] $. Sin embargo, las dos respuestas no son independientes.
Comentarios
- No ‘ creo que el valor p tenga una seceta misteriosa. Algunas personas tienen una Es la probabilidad de observar un valor como extremo o más extremo de lo que realmente se observó cuando la hipótesis nula es VERDADERA. Creo que tenías eso en una de tus fórmulas. Creo que dijiste que p- los valores están distribuidos uniformemente. Sí, estoy de acuerdo con eso cuando la hipótesis nula es verdadera. Tenga en cuenta que con su prueba t la hipótesis nula puede no ser cierta. Entonces el valor p no es uniforme. Debe concentrarse más cerca de 0.
- En segundo lugar, estamos hablando de dos estadísticas de prueba diferentes. Una se basa en el emparejamiento y la otra no en su ejemplo. Ya sea que lo mencione en mi respuesta o no la prueba t no apareada tiene una distribución t central con 2n-2 grados de libertad mientras que la distribución t correspondiente para la prueba t pareada tiene n-1 grados de libertad. Entonces, el que tiene el mayor número de grados de libertad está más cerca de la distribución normal estándar que el otro. ¿Eso importa cuando aplica estas pruebas a datos reales? ¡No! No cuando n es razonablemente grande.
- Como nota al margen, una limitación de la prueba emparejada requiere el mismo tamaño de muestra que debería tener si todos los datos se pueden emparejar. Pero la prueba no apareada es válida con tamaños de muestra desiguales. Entonces, en general, la prueba no emparejada tiene n + m-2 grados de libertad.
- Tu respuesta es larga y abstracta y traté de leerla, pero no ‘ Entiendo el contraejemplo. Simplemente no ‘ t veo dónde se toman en cuenta la hipótesis nula y los datos reales. El valor p observado es la integral de la distribución t apropiada para el estadístico de prueba dados los datos. Compara esos números para las dos distribuciones t y el mismo conjunto de datos común. Si condiciona los datos observados, estas distribuciones uniformes no juegan ningún papel. Lo siento, pero ‘ no veo que su respuesta realmente responda a su pregunta.
- Michael: solo concéntrese en el código R que le di. Solo tarda un segundo en ejecutarse. La hipótesis nula es que X e Y provienen de la misma distribución normal, lo cual es, por supuesto, tremendamente falso en mi caso. En mi ejemplo, Cov (X, Y) > 0 y, sin embargo, la prueba no emparejada da más importancia que la prueba emparejada.
Respuesta
Ofrecería otra perspectiva. A menudo, el emparejamiento reduce el sesgo. Suponga que está interesado en saber si la exposición E es un factor de riesgo para un resultado continuo Y. Para cada sujeto E +, obtiene un sujeto emparejado por edad y sexo que es E-. Ahora, podríamos hacer una prueba t pareada o una prueba t no pareada. Creo que deberíamos tener en cuenta la coincidencia explícita y realizar una prueba t pareada. Tiene más principios porque tiene en cuenta el diseño. Si se debe tener en cuenta la coincidencia en el análisis es una cuestión de la compensación sesgo-varianza. Tener en cuenta la coincidencia en el análisis proporciona más protección contra el sesgo, pero puede aumentar la varianza. Hacer una prueba t no emparejada puede ser más eficiente, pero no proporcionaría ninguna protección contra el sesgo.
Deja una respuesta