¿Cómo se puede utilizar una prueba t para comparar las distribuciones entre grupos de datos?

On febrero 10, 2021 by admin

Entiendo que la prueba t se usa para probar la diferencia en las medias de dos poblaciones cuando las poblaciones tienen variaciones relativamente similares, las unidades son independientes y son normales (especialmente con tamaños de muestra más pequeños).

Sin embargo, me preguntaba cómo se utilizan las pruebas t para observar la diferencia en las distribuciones de datos entre dos grupos. Hago esto porque básicamente es la fraseología utilizada por la pregunta que estoy tratando de responder. Solicita comparar si las distribuciones del artículo de interés son diferentes mediante una prueba t.

La razón por la que estoy confundido es que, aunque entiendo que la media es un producto de la distribución y las pruebas t pueden verse muy afectadas por valores atípicos, por lo que la prueba t puede proporcionar información sobre dos distribuciones, Podría haber un caso en el que las dos distribuciones fueran muy similares pero el tamaño del efecto fue grande simplemente porque estaban centradas en medios diferentes, y podría haber un caso en el que las dos distribuciones parecieran extravagantes con variaciones de diferencia y todo eso, y eso podría llevar a el mismo t-stat. Entonces, ¿cómo podría decir algo de una prueba t?

Comentarios

Mientras escribe, las pruebas t comparan medias. Ese es un aspecto de una distribución. Las pruebas T no comparan variaciones, asimetría, curtosis u otros aspectos de la distribución. Háganos saber qué es lo que está tratando de comparar.
Es ' una buena pregunta: muchas personas que no están tan familiarizadas con las ideas estadísticas como deberían ser (o cree que lo son) a menudo usa frases como " usa una prueba t para probar [o comparar] dos distribuciones " aunque esto compara distribuciones (o poblaciones) solo en el sentido extremadamente limitado de comparar sus medias. Así, cuando la prueba t rechaza la hipótesis de medias iguales, a fortiori las distribuciones difieren; pero en muchos casos la prueba t no rechazará la hipótesis (quizás porque las medias son realmente iguales) incluso cuando las distribuciones sean muy diferentes.
Con las suposiciones que se hacen para derivar la distribución del estadístico de prueba bajo el valor nulo, la prueba t de varianza igual habitual es de hecho una comparación de distribuciones, ya que la única forma en que las distribuciones pueden diferir es que los medios sean diferentes.

Respuesta

La configuración típica para una prueba t de dos muestras es:

$$ X_1, \ dots, X_n \ overset {iid} \ sim N (\ mu_x, \ sigma ^ 2) $$

$$ Y_1, \ dots, Y_m \ overset {iid} \ sim N (\ mu_x + \ delta, \ sigma ^ 2) $$

$ $ H_0: \ delta = 0 $$

$$ H_a: \ delta \ ne0 $$

$$ \ text {(O hágalo unilateral.)} $$

Con esta configuración, si encuentra que hay t Dos distribuciones diferentes, la única forma de que eso suceda es si difieren en la media.

Entonces, es posible que desee decir que las varianzas son desiguales, o al menos permitir esa posibilidad, y luego probar la media diferencias de todos modos. Eso llega a la prueba de Welch … que todavía solo prueba las diferencias en la media. Puede haber una diferencia en la varianza, y eso podría ser más interesante que una diferencia en las medias, pero la prueba de Welch no debería detectar diferencias en la varianza.

Una simulación en R confirma esto.

set.seed(2019) times <- 10000 N <- 1000 Ps <- rep(NA,times) for (i in 1:times){ #the default t-test in R is the Welch test Ps[i] <- t.test(rnorm(N,0,1),rnorm(N,0,5))$p.value } length(Ps[Ps<0.1])/times length(Ps[Ps<0.05])/times

En el nivel $ 0.1 $ , rechazamos aproximadamente el 10% de las veces, y en el $ 0.05 $ -level, rechazamos aproximadamente el 5% del tiempo. Esto es con un tamaño de muestra bastante grande de 1000, por lo que incluso las diferencias sutiles deben descubrirse, pero no son . Así que tiene razón en que la prueba t no hace mucho por usted si desea examinar las diferencias que no son solo la media.

Sin embargo, otros también han notado esto, y hay son pruebas de diferencias de distribución en general. La prueba clásica de distribución completa es la prueba de Kolmogorov-Smirnnov (KS). Examina la mayor distancia vertical (técnicamente superior) entre dos CDF (empíricas). Se sabe que la prueba KS tiene una falta de poder para rechazar las diferencias que se encuentran en las colas, pero sigue siendo una prueba popular. Algunas otras incluyen Anderson-Darling y Kuiper. Algunos jugar con simulaciones me indica que Kuiper es el mejor de los tres en la detección de diferencias en la cola, aunque no he sido especialmente exhaustivo en mi investigación de esto.

Lo que elijas explorar dependerá de lo que quieras saber. Quizás sea lo suficientemente bueno como para que sepa que los medios son diferentes, en cuyo caso, la prueba t o la prueba de Welch podrían estar totalmente bien.

Responder

Parcialmente respondido en los comentarios:

Mientras escribe, las pruebas t comparan medias. Ese es un aspecto de una distribución. Las pruebas T no comparan variaciones, asimetría, curtosis u otros aspectos de la distribución. Háganos saber qué es lo que está intentando comparar.

– Peter Flom

Es una buena pregunta: muchas personas que no están tan familiarizadas con las ideas estadísticas como deberían (o creen que lo están) a menudo usan frases como «use una prueba t para probar [o comparar] dos distribuciones» incluso aunque esto compara distribuciones (o poblaciones) solo en el sentido extremadamente limitado de comparar sus medias. Así, cuando la prueba t rechaza la hipótesis de medias iguales, a fortiori las distribuciones difieren; pero en muchos casos la prueba t no rechazará la hipótesis (quizás porque las medias son realmente iguales) incluso cuando las distribuciones son muy diferentes.

– whuber

Con las suposiciones que se realizan para derivar la distribución del estadístico de prueba bajo el valor nulo , la prueba t habitual de varianza igual es de hecho una comparación de distribuciones, desde el onl La forma en que las distribuciones pueden diferir es por los medios siendo diferentes.

– Glen_b

¿Cómo se puede utilizar una prueba t para comparar las distribuciones entre grupos de datos?

Comentarios

Respuesta

Responder

Written by admin

Deja una respuesta Cancelar la respuesta

Entradas recientes

Archivos